Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Effektstärke, Stichprobenumfang und Teststärke

In den vorangegangenen Abschnitten habe ich die Tatsache betont, dass das wichtigste Konstruktionsprinzip bei statistischen Hypothesentests darin besteht, dass wir versuchen, unsere Fehlerrate vom Typ I zu kontrollieren. Wenn wir α = 0,05 festlegen, versuchen wir sicherzustellen, dass nur 5 % der wahren Nullhypothesen fälschlicherweise abgelehnt werden. Das bedeutet jedoch nicht, dass wir uns nicht um Fehler vom Typ II kümmern sollten. Aus der Sicht des Forschers ist der Fehler, die Nullhypothese nicht zu verwerfen, wenn sie tatsächlich falsch ist, sogar äußerst ärgerlich. In diesem Sinne ist ein sekundäres Ziel des Hypothesentests der Versuch, β, die Fehlerrate vom Typ II zu minimieren, obwohl wir normalerweise nicht so stark auf das Minimieren von Fehlern vom Typ II fokussieren. Stattdessen sprechen wir über das Maximieren der Teststärke (power). Da die Teststärke als 1 - β definiert ist, ist dies dasselbe.

Die power-Funktion

Stichprobenverteilung für die Alternativhypothese θ = 0,55

Abb. 71 Stichprobenverteilung für die Alternativhypothese mit einem Populationsparameterwert von θ = 0,55. Ein deutlicher Anteil der Verteilung liegt im Ablehnungsbereich.

Lassen Sie uns einen Moment darüber nachdenken, was ein Fehler vom Typ II eigentlich ist. Ein Fehler vom Typ II tritt auf, wenn die Alternativhypothese wahr ist, wir aber dennoch die Nullhypothese nicht ablehnen können. Im Idealfall könnten wir eine einzige Zahl β berechnen, die uns die Fehlerrate vom Typ II angibt, so wie wir α = 0,05 für die Fehlerrate vom Typ I festlegen können. Leider ist dies sehr viel schwieriger zu bewerkstelligen. In meiner ESP-Studie entspricht die Alternativhypothese tatsächlich vielen möglichen Werten von θ. Tatsächlich entspricht die Alternativhypothese jedem Wert von θ außer 0,5. Nehmen wir an, dass die wahre Wahrscheinlichkeit, dass jemand die richtige Antwort wählt, 55 % beträgt (d. h. θ = 0,55). In diesem Fall ist die wahre Stichprobenverteilung für X nicht dieselbe, die die Nullhypothese vorhersagt, da der wahrscheinlichste Wert für X nun 55 von 100 ist. Darüber hinaus hat sich die gesamte Stichprobenverteilung verschoben, wie in Abb. 71 gezeigt. Die kritischen Regionen ändern sich natürlich nicht. Definitionsgemäß basieren die kritischen Regionen auf dem, was die Nullhypothese vorhersagt. Was wir in dieser Abbildung sehen, ist, dass ein viel größerer Anteil der Stichprobenverteilung in den kritischen Bereich fällt, wenn die Nullhypothese falsch ist. Und genau das sollte natürlich auch passieren. Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, sollte größer sein, wenn die Nullhypothese tatsächlich falsch ist! * θ* = 0,55 ist jedoch nicht die einzige Möglichkeit, die mit der Alternativhypothese vereinbar ist. Nehmen wir stattdessen an, dass der wahre Wert von θ tatsächlich 0,70 beträgt. Was passiert in diesem Fall mit der Stichprobenverteilung? Die Antwort, die in Abb. 72 gezeigt wird, ist, dass fast die gesamte Stichprobenverteilung nun in den kritischen Bereich gerückt ist. Wenn also θ = 0,70 ist, ist die Wahrscheinlichkeit, dass wir die Nullhypothese korrekt zurückweisen (d. h. die Aussagekraft des Tests) viel größer als wenn θ = 0,55. Kurz gesagt, obwohl θ = 0,55 und θ = 0,70 beide Teil der Alternativhypothese sind, ist die Fehlerrate vom Typ II unterschiedlich.

Stichprobenverteilung für die Alternativhypothese θ = 0,70

Abb. 72 Stichprobenverteilung für die Alternativhypothese mit einem Populationsparameterwert von θ = 0,70. Fast die gesamte Verteilung liegt im Ablehnungsbereich.

All dies bedeutet, dass die Stärke eines Tests (d.h. 1 - β) vom wahren Wert von θ abhängt. Um dies zu veranschaulichen, habe ich die erwartete Wahrscheinlichkeit für das Ablehnen der Nullhypothese für alle Werte von θ berechnet und in Abb. 73 dargestellt. Diese Darstellung beschreibt das, was üblicherweise die Stärkefunktion (power function) des Tests genannt wird. Es ist eine Zusammenfassung, wie gut der Test ist, weil es Ihnen tatsächlich die Potenz (1 - β) für alle möglichen Werte von θ angibt. Wie Sie sehen können, sinkt die Aussagekraft des Tests sehr stark, wenn der wahre Wert von θ sehr nahe bei 0,5 liegt, aber wenn er weiter entfernt ist, ist die Aussagekraft groß.

Wahrscheinlichkeit, die Nullhypothese abzulehnen, als Funktion von θ

Abb. 73 Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, als Funktion des wahren Werts von θ. Offensichtlich ist der Test aussagekräftiger (größere Chance auf korrekte Ablehnung), je mehr der wahre Wert von θ sich von dem Wert unterscheidet, den die Nullhypothese vorgibt (d. h. θ = 0,5). Beachten Sie, dass, wenn θ tatsächlich gleich 0,5 ist (als schwarzer Punkt dargestellt), die Nullhypothese in der Tat wahr ist und das Zurückweisen der Nullhypothese in diesem Fall ein Fehler vom Typ I wäre.

Effektstärke

Da alle Modelle falsch sind, muss der Wissenschaftler darauf achten, was wirklich falsch ist. Es ist unangemessen, sich mit Mäusen zu beschäftigen, wenn es im Ausland Tiger gibt

George Box (1976)

Die in Abb. 73 gezeigte Grafik verdeutlicht einen recht grundlegenden Aspekt der Hypothesenprüfung. Wenn der wahre Zustand der Welt sich sehr stark von dem unterscheidet, was die Nullhypothese vorhersagt, dann ist die Aussagekraft eines Tests sehr hoch; wenn der wahre Zustand der Welt der Nullhypothese ähnlich (aber nicht identisch) ist, dann ist die Aussagekraft des Tests sehr gering. Daher ist es nützlich, eine Möglichkeit zu haben, zu quantifizieren, wie „ähnlich“ der wahre Zustand der Welt der Nullhypothese ist. Eine Statistik, die dies tut, wird als Effektstärke bezeichnet (Cohen, 1988, Ellis, 2010).

Effektstärke wird in verschiedenen Kontexten leicht unterschiedlich definiert (und daher wird in diesem Abschnitt nur allgemein gesprochen), aber der qualitative Gedanke, den sie zu erfassen versucht, ist immer der gleiche. Wie groß ist der Unterschied zwischen den wahren Populationsparametern und den Parameterwerten, die durch die Nullhypothese angenommen werden? Wenn wir in unserem ESP-Beispiel θ0 = 0,5 den von der Nullhypothese angenommenen Wert und θ den wahren Wert bezeichnen, dann könnte ein einfaches Maß für die Effektstärke etwa die Differenz zwischen dem wahren Wert und dem Nullwert sein (d. h., θ - θ0), oder möglicherweise nur die Größe dieser Differenz, abs(θ - θ0).

Tab. 10 Ein grober Leitfaden zum Verständnis der Beziehung zwischen statistischer Signifikanz und Effektstärke. Grundsätzlich gilt: Wenn Sie kein signifikantes Ergebnis haben, ist die Effektstärke bedeutungslos, weil Sie keinen Beleg dafür haben, dass sie überhaupt real ist. Wenn Sie hingegen einen signifikanten Effekt haben, die Effektstärke aber gering ist, ist Ihr Ergebnis (auch wenn es real ist) mit großer Wahrscheinlichkeit nicht besonders interessant (bzw. relevant). Dieser Leitfaden ist jedoch sehr grob. Es hängt sehr stark davon ab, was genau Sie untersuchen. Kleine Effekte können in manchen Situationen von großer praktischer Bedeutung sein. Nehmen Sie diese Tabelle also nicht zu ernst. Sie ist eher ein grober Anhaltspunkt.

Große Effektstärke

Geringe Effektstärke

Signifikantes Ergebnis

der Unterschied ist real und hat praktische Bedeutung

der Unterschied ist real, aber möglicherweise nicht interessant

nicht-signifikantes Ergebnis

keine Wirkung beobachtet

keine Wirkung beobachtet

Warum berechnen wir die Effektstärke? Nehmen wir an, Sie haben ein Experiment durchgeführt, die Daten gesammelt und in Ihrem Hypothesentest ein signifikantes Ergebnis erhalten. Reicht es nicht aus, zu sagen, dass Sie einen signifikanten Effekt erhalten haben? Ist das nicht das Ziel der Hypothesenprüfung? Ja, aber während der Sinn eines Hypothesentests besteht darin, zu zeigen, dass die Nullhypothese falsch ist, ist das kaum das Einzige, was uns interessiert. Wenn die Nullhypothese behauptet, dass θ = 0,50 ist, und wir zeigen, dass sie falsch ist, haben wir nur eine Hälfte der Geschichte erzählt. Das Ablehnen der Nullhypothese bedeutet, dass wir glauben, dass θ ≠ 0,50 ist, aber es gibt einen großen Unterschied zwischen θ = 0,51 und θ = 0,80. Wenn wir feststellen, dass θ = 0,80 ist, dann haben wir nicht nur festgestellt, dass die Nullhypothese falsch ist, sondern dass sie sehr falsch zu sein scheint. Nehmen wir andererseits an, wir haben die Nullhypothese erfolgreich verworfen, aber es sieht so aus, als ob der wahre Wert von θ nur 0,51 beträgt (dies wäre nur bei einer sehr großen Studie möglich). Einerseits ist die Nullhypothese falsch, aber es ist überhaupt nicht klar, ob wir uns tatsächlich um diesen Effekt kümmern sollten, weil die Effektstärke so klein ist. Im Zusammenhang mit meiner ESP-Studie mag uns das noch interessieren, da jeder Nachweis echter übersinnlicher Fähigkeiten ziemlich cool wäre,[1] aber in anderen Zusammenhängen ist ein Unterschied von 1 % normalerweise nicht sehr interessant, selbst wenn es sich um einen echten Unterschied handelt. Nehmen wir zum Beispiel an, wir untersuchen die Unterschiede zwischen den Prüfungsergebnissen von Männern und Frauen während des Abiturs und es stellt sich heraus, dass die Ergebnisse der Frauen im Durchschnitt 1 % höher sind als die der Männer. Wenn ich Daten von Tausenden von Schülern habe, wird dieser Unterschied mit ziemlicher Sicherheit statistisch signifikant sein. Aber unabhängig davon, wie klein der p-Wert ist, ist er einfach nicht wirklich interessant. Sie würden wohl kaum auf der Grundlage eines so geringen Unterschieds eine Bildungskrise bei Männern konstatieren wollen? Aus diesem Grund wird es (langsam, aber sicher) immer mehr zum Standard, zusammen mit den Ergebnissen des Hypothesentests eine Maß für die Effektstärke anzugeben. Der Hypothesentest selbst sagt Ihnen, ob Sie glauben sollten, dass der von Ihnen beobachtete Effekt real ist (d. h. nicht nur zufällig), während die Effektstärke Ihnen sagt, ob dieses Ergebnis (praktisch) relevant ist oder eher nicht.

Steigern der Teststärke Ihrer Studie

Es überrascht nicht, dass Wissenschaftler ziemlich besessen davon sind, die Aussagekraft ihrer Experimente zu steigern. Wir wollen, dass unsere Experimente funktionieren, und deshalb wollen wir die Chance maximieren, die Nullhypothese zu verwerfen, wenn sie falsch ist (und natürlich wollen wir in der Regel glauben, dass sie falsch ist). Wie wir gesehen haben, ist ein Faktor, der die Aussagekraft beeinflusst, die Effektstärke. Das Erste, was Sie tun können, um die Aussagekraft zu erhöhen, ist, die Effektstärke zu vergrößern. In der Praxis bedeutet dies, dass Sie Ihre Studie so anlegen sollten, dass die Effektstärke erhöht wird. In meiner ESP-Studie könnte ich zum Beispiel davon ausgehen, dass übersinnliche Kräfte am besten in einem ruhigen, abgedunkelten Raum funktionieren, in dem es weniger Ablenkungen gibt, die den Geist beeinflussen. Daher würde ich versuchen, meine Experimente in einer solchen Umgebung durchzuführen. Wenn ich die ESP-Fähigkeiten meiner Versuchsteilnehmer irgendwie verbessern kann, dann wird der wahre Wert von θ nach oben gehen[2] und daher wird meine Effektstärke größer werden. Kurz gesagt, eine geschickte Versuchsplanung ist eine Möglichkeit, die Aussagekraft ihrer Studie zu erhöhen, da sie die Effektstärke verändern kann.

Leider ist es oft so, dass man selbst mit den besten Versuchsanordnungen nur einen kleinen Effekt erzielt. Vielleicht gibt es zum Beispiel ESP wirklich, aber selbst unter den besten Bedingungen ist der Effekt nur sehr schwach. Unter diesen Umständen besteht die beste Möglichkeit, die Aussagekraft zu erhöhen, darin, die Stichprobengröße zu vergrößern. Im Allgemeinen gilt: Je mehr Beobachtungen Sie zur Verfügung haben, desto wahrscheinlicher ist es, dass Sie zwischen zwei Hypothesen unterscheiden können. Wenn ich mein ESP-Experiment mit 10 Teilnehmern durchführe und 7 von ihnen die Farbe der verdeckten Karte richtig erraten, wären Sie nicht sonderlich beeindruckt. Wenn ich es aber mit 10.000 Teilnehmern durchführte und 7.000 von ihnen die richtige Antwort wüssten, würden Sie viel eher glauben, ich hätte etwas entdeckt. Mit anderen Worten: Die Aussagekraft steigt mit dem Umfang der Stichprobe. Dies wird in Abb. 74 veranschaulicht, welche die Aussagekraft des Tests für einen wahren Parameter von θ = 0,70 für alle Stichprobengrößen N von 1 bis 100 zeigt. Dabei gehe ich davon aus, dass die Nullhypothese vorhersagt, dass θ0 = 0,5 ist.

Wahrscheinlichkeit, die Nullhypothese abzulehnen, als Funktion von θ

Abb. 74 Die Stärke unseres Tests, aufgetragen als Funktion des Stichprobenumfangs N. In diesem Fall ist der wahre Wert von θ 0,7, die Nullhypothese lautet jedoch θ = 0,5. Insgesamt bedeutet ein größeres N eine größere Aussagekraft (die kleinen Zickzackkurven in dieser Funktion sind auf einige seltsame Wechselwirkungen zwischen θ, α und der Tatsache zurückzuführen, dass die Binomialverteilung diskret ist; für einen ernsthaften Zweck spielt dies keine Rolle).

Da die Aussagekraft wichtig ist, wäre es beim Durchführen eines Experiments sehr nützlich zu wissen, wie hoch die Aussagekraft sein wird. Es ist nie möglich, dies mit Sicherheit zu wissen, da man unmöglich wissen kann, wie groß der Effekt tatsächlich ist. Es ist jedoch oft (oder mindestens manchmal) möglich, zu schätzen, wie groß sie sein sollte. Wenn das der Fall ist, können Sie schätzen, welchen Stichprobenumfang Sie benötigen! Diese Idee nennt sich Teststärkeberechnung (power analysis), und wenn sie durchführbar ist, ist sie sehr hilfreich. Sie kann Ihnen Aufschluss darüber geben, ob Sie über genügend Zeit oder Geld verfügen, um das Experiment erfolgreich durchführen zu können. Immer häufiger wird argumentiert, dass die Teststärkeberechnung ein obligatorischer Bestandteil der Versuchsplanung sein sollte. Deshalb lohnt es sich, sie zu kennen. In diesem Buch gehe ich jedoch nicht darauf ein. Das hat einen praktischen und einen inhaltlichen Grund. Der praktische Grund ist, dass ich noch keine Zeit hatte, etwas Substanzielles über Teststärkeberechnung zu schreiben. Der inhaltliche Grund ist, dass ich der Teststärkeberechnung immer noch ein wenig misstrauisch gegenüberstehe. Als Forscher habe ich mich nur sehr selten in der Lage gesehen, eine solche Analyse durchzuführen. Es ist entweder so, dass (a) mein Experiment ein wenig vom Standard abweicht und ich nicht weiß, wie ich die Effektstärke richtig definieren soll, oder (b) ich habe buchstäblich so wenig Ahnung von Effektstärke, dass ich nicht weiß, wie ich die Antworten interpretieren soll. Und nicht nur das: Nach ausführlichen Gesprächen mit jemandem, der beruflich als Berater für Statistik tätig ist (zufälligerweise meine Frau), muss ich feststellen, dass sie in der Praxis nur dann nach einer Teststärkeberechnung fragt wird, wenn sie jemandem beim Schreiben eines Drittmittel-Antrags hilft. Mit anderen Worten, der einzige Zeitpunkt, an dem ein Wissenschaftler im wirklichen Leben eine Teststärkeberechnung durchführen will, ist, wenn er durch bürokratische Verfahren dazu gezwungen wird. Sie ist eher kein Teil der täglichen Arbeit von irgendjemandem. Kurz gesagt, ich war schon immer der Meinung, dass die Teststärke zwar ein wichtiges Konzept ist, aber die Teststärkeberechnung nicht so nützlich ist, wie man es glauben machen will, außer in den seltenen Fällen, in denen (a) jemand herausgefunden hat, wie man die Teststärke für die eigentliche Versuchsanordnung berechnet, und (b) man eine ziemlich gute Vorstellung davon hat, wie groß der Effekt wahrscheinlich sein wird.[3] Vielleicht haben andere Leute bessere Erfahrungen gemacht als ich, aber ich persönlich war noch nie in einer Situation, in der sowohl (a) als auch (b) zutrafen. Vielleicht werde ich in Zukunft eines Besseren belehrt, und wahrscheinlich wird eine künftige Version dieses Buches eine detailliertere Diskussion der Teststärkeberechnung enthalten, aber im Moment ist das so ziemlich alles, was ich zu diesem Thema sagen kann.