Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Einige zu berücksichtigende Aspekte

Was ich Ihnen in diesem Kapitel beschrieben habe, ist die frequentistische Sichtweise auf Nullhypothesen-Signifikanztests (NHST). Zu verstehen, wie NHST funktioniert, ist eine absolute Notwendigkeit, da es der dominierende Ansatz für Inferenzstatistik ist, seit er im frühen 20. Jahrhundert entwickelt wurde. Es ist die Sichtweise, auf die sich die überwiegende Mehrheit der Wissenschaftler für ihre Datenanalysen verlässt. Selbst wenn Sie diese Sichtweise hassen, müssen Sie sie zumindest kennen und verstehen. Die Sichtweise ist jedoch nicht unproblematisch. Es gibt eine Reihe von Eigenheiten, historische Kuriositäten in der Art und Weise, wie er entstanden ist, theoretische Streitigkeiten darüber, ob die Sichtweise richtig ist oder nicht, und viele praktische Fallen für Unvorsichtige. Ich werde nicht zu sehr ins Detail gehen, aber ich denke, es lohnt sich, kurz auf einige dieser Themen einzugehen.

Neyman versus Fisher

Zunächst einmal sollten Sie wissen, dass das frequentistische NHST eigentlich eine Mischung aus zwei recht unterschiedlichen Ansätzen für Hypothesentests ist, von denen einer von Sir Ronald Fisher und der andere von Jerzy Neyman vorgeschlagen wurde (siehe Lehmann, 2011 für eine historische Zusammenfassung). Die Geschichte ist chaotisch, weil Fisher und Neyman echte Menschen waren, deren Meinungen sich im Laufe der Zeit änderten. Keiner von ihnen hat zu irgendeinem Zeitpunkt „die endgültige Erklärung“ angeboten, wie wir ihre Arbeit viele Jahrzehnte später interpretieren sollten. Dennoch möchte ich hier kurz zusammenfassen, was ich unter diesen beiden Ansätzen verstehe.

Lassen Sie uns zunächst über den Ansatz von Fisher sprechen. Soweit ich das verstanden habe, ging Fisher davon aus, dass man nur eine Hypothese (die Nullhypothese) hat und dass man herausfinden will, ob die Nullhypothese mit den Daten unvereinbar ist. Aus seiner Sicht sollte man also prüfen, ob die Daten gemäß der Nullhypothese „hinreichend unwahrscheinlich“ sind. Wenn Sie sich an unsere frühere Diskussion erinnern, definiert Fisher den p-Wert genau so. Wenn die Nullhypothese die Daten sehr schlecht reflektiert, kann man sie nach Fisher getrost verwerfen. Da man aber keine anderen Hypothesen hat, mit denen man sie vergleichen könnte, gibt es keine Möglichkeit, „die Alternative zu akzeptieren“, weil man nicht unbedingt eine explizit angegebene Alternative hat. Das ist mehr oder weniger alles, was es dazu zu sagen gibt.

Im Gegensatz dazu dachte Neyman, dass der Sinn des Hypothesentestens ein Leitfaden bezgl. des Vorgehens beim Ducrhführen des Tests sei und sein Ansatz etwas formaler war als der von Fisher. Seine Ansicht war, dass es mehrere Dinge gibt, die Sie tun könnten (Sie akzeptieren entweder die Null- oder die Alternativehypothese). Der Sinn des Tests besteht dabei darin, Ihnen zu sagen, welche Option die Daten unterstützen. Aus dieser Perspektive ist es wichtig, Ihre alternative Hypothese richtig zu spezifizieren. Wenn Sie nicht wissen, was die alternative Hypothese ist, dann wissen Sie nicht, welche Stärke (power) der Test hat oder welche Option sinnvoller ist. Sein Rahmen erfordert wirklich einen Wettbewerb zwischen verschiedenen Hypothesen. Für Neyman maß der p-Wert nicht direkt die Wahrscheinlichkeit der Daten (oder extremeren Daten) unter der Null, es war eher eine abstrakte Beschreibung darüber, welche „möglichen Tests“ Ihnen sagen, dass Sie die Nullhypothese akzeptieren sollten, und welche „möglichen Tests“ Ihnen sagen, dass Sie die Alternativhypothese akzeptieren sollten.

Wie Sie sehen, ist das, was wir heute haben, ein seltsamer Mischmasch aus beidem. Wir sprechen davon, dass es sowohl eine Nullhypothese als auch eine Alternative gibt (Neyman), aber in der Regel definieren wir[1] den p-Wert im Hinblick auf extreme Daten (Fisher), und wir haben immer noch α-Werte (Neyman). Einige der statistischen Tests haben explizit angegebene Alternativen (Neyman), aber andere sind diesbezüglich recht vage (Fisher). Und zumindest nach Ansicht einiger Leute dürfen wir nicht über die Annahme der Alternative sprechen (Fisher). Es ist ein Durcheinander, aber ich hoffe, diese Ausführungen erklären zumindest, warum es so ein Durcheinander ist.

Bayesianer versus Frequentisten

An einer früheren Stelle in diesem Kapitel habe ich mit Nachdruck darauf hingewiesen, dass man den p-Wert nicht als die Wahrscheinlichkeit interpretieren kann, dass die Nullhypothese wahr ist. NHST ist grundsätzlich ein frequentistisches Werkzeug (siehe Kapitel Einführung in die Wahrscheinlichkeitsrechnung). Als solches erlaubt es Ihnen nicht, den Hypothesen Wahrscheinlichkeiten zuzuordnen. Die Nullhypothese ist entweder wahr oder sie ist nicht wahr. Beim Bayesschen Ansatz der Statistik wird die Wahrscheinlichkeit als Grad der Überzeugung interpretiert, so dass es völlig in Ordnung ist, zu sagen, dass die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, 10 % beträgt. Das spiegelt nur den Grad des Vertrauens wider, den Sie in diese Hypothese haben. Im Rahmen des frequentistischen Ansatzes ist dies nicht erlaubt. Denken Sie daran, dass eine Wahrscheinlichkeit für einen Frequentisten nur in Bezug auf das definiert werden kann, was nach einer großen Anzahl unabhängiger Replikationen (d. h. einer langfristigen Häufigkeit) geschieht. Wenn dies Ihre Interpretation der Wahrscheinlichkeit ist, ist es völlige fehlgeleitet, von der „Wahrscheinlichkeit“ zu sprechen, dass die Nullhypothese wahr ist: Eine Nullhypothese ist entweder wahr oder sie ist falsch. Es ist unmöglich, bei dieser Aussage von einer langfristigen Häufigkeit zu sprechen. Von der „Wahrscheinlichkeit der Nullhypothese“ zu sprechen, ist so sinnlos wie die „Farbe der Freiheit“. Es gibt sie nicht!

Am wichtigsten ist, dass dieses keine rein ideologische Angelegenheit ist. Wenn Sie sich entscheiden, dass Sie ein Bayesianer sind und dass es für Sie in Ordnung ist, Wahrscheinlichkeitsaussagen über Hypothesen zu machen, müssen Sie die Bayesschen Regeln für das Berechnen dieser Wahrscheinlichkeiten befolgen. Ich werde in Kapitel Bayessche Statistik mehr dazu sagen, aber im Moment möchte ich Sie darauf hinweisen, dass der p-Wert eine völlig unzureichende Annäherung an die Wahrscheinlichkeit ist, dass H₀ wahr ist. Wenn Sie die Wahrscheinlichkeit des Eintreffens der Nullhypothese wissen wollen, dann ist der p-Wert nicht das, wonach Sie suchen!

Fallen

Wie Sie sehen, ist die Theorie der Hypothesentests ein einziges Durcheinander, und selbst heute noch wird in der Statistik darüber gestritten, wie sie funktionieren „sollte“. Allerdings sind Meinungsverschiedenheiten unter Statistikern hier nicht unser eigentliches Anliegen. Unser eigentliches Anliegen ist die praktische Datenanalyse. Und obwohl der frequentistische Ansatz der Signifikanztests für Nullhypothesen viele Nachteile hat, wird selbst ein überzeugter Bayesianer zustimmen, dass der Ansatz nützlich sein kann, wenn er verantwortungsvoll eingesetzt wird. In den meisten Fällen liefert er vernünftige Antworten und man kann mit ihm interessante Dinge lernen. Abgesehen von den verschiedenen Ideologien und historischen Verwirrungen, die wir diskutiert haben, bleibt die Tatsache bestehen, dass die größte Gefahr in der gesamten Statistik Gedankenlosigkeit ist. Ich meine damit nicht Dummheit, sondern Gedankenlosigkeit. Die größte Falle liegt in der Eile, ein Ergebnis zu interpretieren, ohne Zeit darauf zu verwenden, darüber nachzudenken, was jeder Test tatsächlich über die Daten aussagt, und zu überprüfen, ob dies mit der eigenen Interpretation übereinstimmt.

Ein Beispiel hierfür ist das folgende Beispiel (Gelman & Stern, 2006). Angenommen, ich führe meine ESP-Studie durch und habe beschlossen, die Daten getrennt nach männlichen und weiblichen Teilnehmern zu analysieren. Von den männlichen Teilnehmern haben 33 von 50 die Farbe der Karte richtig erraten. Dies ist ein signifikanter Effekt (p = 0,03). Von den weiblichen Teilnehmern errieten 29 von 50 die richtige Farbe. Dies ist kein signifikanter Effekt (p = 0,32). Wenn man dies beobachtet, ist die Versuchung groß, sich zu fragen, warum es einen Unterschied zwischen Männern und Frauen in Bezug auf ihre psychischen Fähigkeiten gibt. Dies ist jedoch falsch. Wenn man darüber nachdenkt, haben wir nicht eigentlich einen Test durchgeführt, der ausdrücklich Männer mit Frauen vergleicht. Wir haben lediglich Männer mit dem Zufall verglichen (der Binomialtest war signifikant) und Frauen mit dem Zufall verglichen (der Binomialtest war nicht signifikant). Wenn wir behaupten wollen, dass es einen echten Unterschied zwischen Männern und Frauen gibt, sollten wir die Nullhypothese testen, dass es keinen Unterschied gibt! Wir können dies mit einem anderen Hypothesentest tun,[2] aber wenn wir dies tun, stellt sich heraus, dass wir keinen Beleg dafür haben, dass Männer und Frauen signifikant unterschiedlich sind (p = 0,54). Glauben Sie, dass sich die beiden Gruppen grundlegend unterscheiden? Nein, natürlich nicht. Was hier passiert ist, ist, dass die Daten von beiden Gruppen (Männer und Frauen) ziemlich grenzwertig sind. Rein zufällig ist eine der beiden Gruppen auf der magischen Seite der Linie p = 0,05 gelandet, die andere nicht. Das bedeutet aber nicht, dass Männer und Frauen unterschiedlich sind. Dieser Fehler kommt so häufig vor, dass Sie sich immer davor hüten sollten. Der Unterschied zwischen signifikant und nicht-signifikant ist kein Beleg für einen echten Unterschied. Wenn Sie sagen wollen, dass es einen Unterschied zwischen zwei Gruppen gibt, dann müssen Sie diesen Unterschied auch nachweisen!

Das obige Beispiel ist genau das: ein Beispiel. Ich habe es herausgegriffen, weil es so häufig vorkommt, aber im Großen und Ganzen geht es darum, dass es schwierig sein kann, eine Datenanalyse richtig durchzuführen. Denken Sie darüber nach, was Sie testen wollen, warum Sie es testen wollen und ob die Antworten, die Ihr Test liefert, in der realen Welt überhaupt einen Sinn ergeben oder nicht.