Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Ergebnisse eines Hypothesentests berichten

Wenn Sie die Ergebnisse eines Hypothesentests aufschreiben, müssen Sie in der Regel mehrere Informationen angeben, aber das ist von Test zu Test sehr unterschiedlich. Im weiteren Verlauf des Buches werde ich ein wenig darauf eingehen, wie die Ergebnisse verschiedener Tests zu berichten sind (ein besonders ausführliches Beispiel finden Sie im Abschnitt Wie berichten Sie diese Testergebnisse?), damit Sie ein Gefühl dafür bekommen, wie es normalerweise gemacht wird. Unabhängig davon, welchen Test Sie durchführen, müssen Sie immer den p-Wert berichten und ob das Ergebnis signifikant war oder nicht.

Die Tatsache, dass Sie dies tun müssen, ist nicht überraschend, denn darum geht es ja bei der Prüfung. Was überraschen könnte, ist die Tatsache, dass es eine gewisse Kontroverse darüber gibt, wie genau man das tun soll. Abgesehen von den Leuten, die mit dem gesamten Rahmen, der dem Nullhypothesentest zugrunde liegt, nicht einverstanden sind, gibt es eine gewisse Spannung in der Frage, ob man den genauen p-Wert, den man erhalten hat, angeben soll oder nicht, oder ob man nur angeben soll, dass p < α war für ein Signifikanzniveau, das man im Voraus gewählt hat (z. B. p < 0,05).

Das Problem

Um zu verstehen, warum dies ein Problem ist, muss man wissen, dass p-Werte schrecklich bequem sind. In der Praxis bedeutet die Tatsache, dass wir einen p-Wert berechnen können, dass wir eigentlich gar kein α-Niveau angeben müssten, um den Test durchzuführen. Stattdessen können Sie Ihren p-Wert berechnen und ihn direkt interpretieren. Wenn Sie p = 0,062 erhalten, dann bedeutet dies, dass Sie bereit sein müssten, eine Typ-I-Fehlerrate vom von 6,2 % zu tolerieren, um die Ablehnung der Nullhypothese zu rechtfertigen. Wenn Sie persönlich 6,2 % nicht tolerieren können, dann behalten Sie die Nullhypothese bei. Warum also, so das Argument, geben wir nicht einfach den tatsächlichen p-Wert an und überlassen es dem Leser, sich selbst eine Meinung darüber zu bilden, was eine akzeptable Typ-I-Fehlerrate ist? Dieser Ansatz hätte den Vorteil, dass er den Entscheidungsfindungsprozess „abmildert“. Wenn Sie die Neyman-Definition des p-Wertes akzeptieren, ist das sogar der Sinn des p-Wertes. Wir haben nicht länger ein festes Signifikanzniveau von α = 0,05 als hartes Kriterium, das „Annehmen“- von „Ablehnen“-Entscheidungen trennt. Es beseitigt außerdem das Problem, dass wir gezwungen sind, p = 0,051 auf eine grundlegend andere Weise zu behandeln als p = 0,049.

Diese Flexibilität ist sowohl ein Vorteil als auch ein Nachteil des p-Wertes. Der Grund, warum viele Leute die Idee, einen exakten p-Wert anzugeben, nicht mögen, ist, dass er dem Forscher ein wenig zu viel Freiheit gibt. Insbesondere, dass man seine Meinung über die Fehlertoleranz, die man bereit ist, in Kauf zu nehmen, ändern kann, nachdem man sich die Daten angesehen hat. Nehmen wir zum Beispiel mein ESP-Experiment. Angenommen, ich führe meinen Test durch und erhalte einen p-Wert von 0,09. Sollte ich die Nullhypothese beibehalten oder verwerfen? Um ehrlich zu sein, habe ich mir noch nicht die Mühe gemacht, darüber nachzudenken, welchen Grad des Fehlers vom Typ I ich „wirklich“ zu akzeptieren bereit bin. Aber ich habe eine Meinung dazu, ob ESP existiert oder nicht, und ich habe eine sehr definitive Meinung dazu, ob meine Forschung in einer angesehenen wissenschaftlichen Zeitschrift veröffentlicht werden sollte. Und erstaunlicherweise denke ich jetzt, nachdem ich mir die Daten angesehen habe, dass eine Fehlerrate von 9 % gar nicht so schlecht ist, vor allem im Vergleich dazu, wie ärgerlich es wäre, zugeben zu müssen, dass mein Experiment fehlgeschlagen ist. Um also zu vermeiden, dass es so aussieht, als hätte ich es mir erst im Nachhinein ausgedacht, sage ich jetzt, dass mein α 0,1 ist, mit dem Argument, dass eine Fehlerrate vom Typ I von 10 % nicht so schlimm ist und mein Test bei diesem Wert signifikant ist! Ich habe gewonnen.

Mit anderen Worten, mache ich mir Sorgen, dass ich vielleicht die besten Absichten habe und der ehrlichste Mensch bin, aber die Versuchung, die Dinge hier und da ein wenig zu „beschönigen“, ist sehr, sehr groß. Jeder, der schon einmal ein Experiment durchgeführt hat, kann bestätigen, dass dies ein langer und schwieriger Prozess ist und man oft sehr an seinen Hypothesen hängt. Es ist schwer, loszulassen und zuzugeben, dass das Experiment nicht das gefunden hat, was man finden wollte. Und genau hier liegt die Gefahr. Wenn wir den „rohen“ p-Wert verwenden, werden die Leute anfangen, die Daten so zu interpretieren, wie sie wollen, und nicht so, wie die Daten tatsächlich aussagen. Wenn wir das zulassen, warum machen wir uns dann überhaupt die Mühe, Wissenschaft zu betreiben? Warum lassen wir nicht jeden glauben, was er will, unabhängig von den Fakten? Selbst wenn das ein bisschen extrem ist, ist das aber genau der Grund für diese Sorge. Nach dieser Auffassung müssen Sie Ihren α-Wert wirklich im Voraus definieren und dann nur berichten, ob der Test signifikant war oder nicht. Das ist der einzige Weg, um ehrlich zu bleiben.

Zwei Lösungsvorschläge

In der Praxis ist es ziemlich selten, dass ein Forscher im Voraus ein einziges α-Niveau festlegt. Stattdessen ist es üblich, dass sich Wissenschaftler auf drei Standardsignifikanzniveaus verlassen: 0,05, 0,01 und 0,001. Wenn Sie Ihre Ergebnisse mitteilen, geben Sie an, auf welchem dieser Signifikanzniveaus es Ihnen möglich ist, die Nullhypothese zu verwerfen (wenn überhaupt). Dies wird in Tab. 9 zusammengefasst. Dies ermöglicht es uns, die Entscheidungsregel etwas abzuschwächen, da p < 0,01 impliziert, dass die Daten einen höheren Beweisstandard erfüllen als p < 0,05. Da diese Werte jedoch von vornherein durch Konvention festgelegt sind, wird verhindert, dass die Leute ihren α-Wert erst nach Betrachtung der Daten wählen.

Tab. 9 Eine allgemein angenommene Konvention für die Angabe von p-Werten: An vielen Orten ist es üblich, eine von vier verschiedenen Angaben zu machen (z.B. p < 0,05), wie unten gezeigt. Ich habe die Notation der „Signifikanzsterne“ (d. h. ein * steht für p < 0,05) eingefügt, weil man diese Notation manchmal auch in Statistiksoftware sieht. Es ist auch erwähnenswert, dass manche Leute *n.s.* (nicht signifikant) statt p > 0,05 schreiben.
Übliche Schreibweise	Signifikanzsterne	Englische Übersetzung	Die Nullhypothese ist…
p > 0.05		Der Test war nicht signifikant.	Beibehalten
p < 0.05	*	Der Test war signifikant für α = 0,05; aber nicht für α =.01 oder α = 0,001.	Zurückgewiesen
p < 0.01	**	Der Test war signifikant für α = 0,05 und α = 0,01; aber nicht für α = 0,001.	Zurückgewiesen
p < 0.001	***	Der Test war auf allen Niveaus signifikant	Zurückgewiesen

Dennoch ziehen es viele Leute vor, genaue p-Werte anzugeben. Für viele überwiegt der Vorteil, dass der Leser sich selbst ein Bild davon machen kann, wie p = 0,06 zu interpretieren ist, alle Nachteile. In der Praxis ist es jedoch selbst unter den Forschern, die exakte p-Werte bevorzugen, durchaus üblich, einfach p < 0,001 zu schreiben, anstatt einen exakten Wert für kleine p-Werte anzugeben. Dies liegt zum Teil daran, dass viele Software den p-Wert nicht wirklich ausdruckt, wenn er so klein ist (z. B., SPSS schreibt einfach p = 0,000, wenn p < 0,001), und zum Teil, weil ein sehr kleiner p-Wert irgendwie irreführend sein kann. Der menschliche Verstand sieht eine Zahl wie 0,0000000001, und es fällt schwer, das Bauchgefühl zu unterdrücken, dass die Beweise für die Alternativhypothese eine nahezu sichere Sache sind. In der Praxis ist dies jedoch meist falsch. Das Leben ist eine große, chaotische, komplizierte Sache, und jeder statistische Test, der je erfunden wurde, beruht auf Vereinfachungen, Annäherungen und Annahmen. Infolgedessen ist es wahrscheinlich nicht vernünftig, jede statistische Analyse mit einem Gefühl der Zuversicht zu verlassen, die größer ist als p < 0,001 impliziert. Mit anderen Worten: p < 0,001 ist in Wirklichkeit ein Code für „Was diesen Test betrifft, ist die Beweislage sehr deutlich.“

In Anbetracht all dessen fragen Sie sich vielleicht, was genau Sie tun sollten. Es gibt eine ganze Reihe von widerstreitenden Ratschlägen zu diesem Thema, wobei einige Leute dafür plädieren, den genauen Wert p anzugeben, und andere Leute dafür plädieren, den in Tab. 9 dargestellten abgestuften Ansatz zu verwenden. Der beste Rat, den ich Ihnen geben kann, ist daher, dass Sie sich Artikel und wissenschaftliche Berichte aus Ihrem Fachgebiet ansehen, um zu sehen, welche Konventionen dort herrschen. Wenn es kein einheitliches Muster zu geben scheint, dann verwenden Sie die Methode, die Sie bevorzugen.