Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Entscheidungen treffen

Damit sind wir so gut wie fertig: Wir haben eine Teststatistik konstruiert (X) und wir haben eine Teststatistik so gewählt, dass wir ziemlich sicher sein können, dass wir die Nullhypothese beibehalten sollten, wenn X nahe an N / 2 liegt. Ist dies nicht der Fall, können wir die Nullhypothese zurückweisen. Offen bleibt die Frage, welche Werte der Teststatistik sollten wir genau der Nullhypothese zuordnen und welche Werte der Alternativhypothese? In meiner ESP-Studie habe ich zum Beispiel einen Wert von X = 62 beobachtet. Welche Entscheidung sollte ich treffen? Soll ich mich für die Nullhypothese oder die Alternativhypothese entscheiden?

Kritische Bereiche und kritische Werte

Um diese Frage zu beantworten, müssen wir das Konzept des kritischen Bereichs für die Teststatistik X einführen. Der kritische Bereich des Tests entspricht den Werten von X, die zum Ablehnen der Nullhypothese führen würden (daher wird der kritische Bereich manchmal auch als Ablehnungsbereich bezeichnet). Wie finden wir diesen kritischen Bereich? Nun, betrachten wir, was wir wissen:

  • X sollte entweder sehr groß oder sehr klein sein, um die Nullhypothese zu verwerfen.

  • Wenn die Nullhypothese wahr ist, ist die Stichprobenverteilung von X Binomial(0,5, N).

  • Wenn α = 0,05 ist, muss der kritische Bereich 5 % dieser (Binomial-)Stichprobenverteilung abdecken.

Es ist wichtig, dass Sie diesen letzten Punkt verstehen. Der kritische Bereich entspricht den Werten von X, für die wir die Nullhypothese ablehnen würden. Die betreffende Stichprobenverteilung beschreibt die Wahrscheinlichkeit, dass wir einen bestimmten Wert von X erhalten würden, wenn die Nullhypothese tatsächlich wahr wäre. Nehmen wir an, dass wir einen kritischen Bereich gewählt haben, der 20 % der Stichprobenverteilung abdeckt. Nehmen wir außerdem an, dass die Nullhypothese wahr ist. Wie hoch wäre die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise abgelehnt wird? Die Antwort ist natürlich 20 %. Wir hätten also einen Test entwickelt, der ein Niveau von α von 0,2 aufweist. Wenn wir α = 0,05 erhalten wollen, darf der kritische Bereich nur 5 % der Stichprobenverteilung unserer Teststatistik abdecken.

Kritischer Bereich im Zusammenhang mit einem zweiseitigen Test

Abb. 68 Der kritische Bereich im Zusammenhang mit dem Hypothesentest für die ESP-Studie sollte ein Signifikanzniveau von α = 0,05 haben. Das Diagramm zeigt die Stichprobenverteilung von X unter der Nullhypothese (d. h. dasselbe wie Abb. 67). Die grauen Balken entsprechen denjenigen Werten von X, für welche wir die Nullhypothese beibehalten würden. Die blauen (dunkler schattierten) Balken zeigen den kritischen Bereich, d. h. die Werte von X, für welche wir die Nullhypothese verwerfen würden. Da die Alternativhypothese zweiseitig ist (d. h. sowohl θ < 0,5 als auch θ > 0,5 zulässt), deckt der kritische Bereich beide Ausläufer der Verteilung ab. Um ein α-Niveau von 0,05 zu gewährleisten, müssen wir sicherstellen, dass jede der beiden Regionen 2,5 % der Stichprobenverteilung abdeckt.

Wie sich herausstellt, lösen diese drei Dinge das Problem auf einzigartige Weise. Unsere kritische Region besteht aus den meisten Extremwerten, den sogenannten Ausläufern der Verteilung. Dies ist in Abb. 68 dargestellt. Wenn wir α = 0,05 wollen, dann entsprechen unsere kritischen Regionen X ≤ 40` und X ≥ 60.[1] Das heißt, wenn die Anzahl der Personen, welche die verdeckte Karte korrekt vorhersagen, zwischen 41 und 59 liegt, dann sollten wir die Nullhypothese beibehalten. Liegt die Zahl zwischen 0 und 40 oder zwischen 60 und 100, dann können wir die Nullhypothese verwerfen. Die Zahlen 40 und 60 werden oft als die kritischen Werte bezeichnet, da sie die Ränder des kritischen Bereichs definieren.

An diesem Punkt ist unser Hypothesentest eigentlich abgeschlossen:

    1. wir haben ein α-Niveau (z. B. α = 0,05) gewählt;

  1. (2) come up with some test statistic (e.g., X) that does a good job (in some meaningful sense) of comparing H0 to H1;

  2. (3) figure out the sampling distribution of the test statistic on the assumption that the null hypothesis is true (in this case, binomial); and then

  3. (4) calculate the critical region that produces an appropriate α level (0-40 and 60-100).

Jetzt müssen wir nur noch den Wert der Teststatistik für die realen Daten berechnen (z. B. X = 62) und ihn dann mit den kritischen Werten vergleichen, um unsere Entscheidung zu treffen. Da 62 größer ist als der kritische Wert von 60, würden wir die Nullhypothese ablehnen. Oder, um es etwas anders auszudrücken, wir sagen, dass der Test ein statistisch signifikantes Ergebnis erbracht hat.

Eine Anmerkung zur statistischen „Signifikanz“

Wie andere okkulte Wahrsagetechniken hat auch die statistische Methode einen eigenen Jargon, der erfunden wurde, um ihre Methoden vor Nicht-Mitgliedern zu verbergen.

—Attributed to G. O. Ashley[2]

An dieser Stelle ist ein Exkurs über das Wort „signifikant“ angebracht. Das Konzept der statistischen Signifikanz ist eigentlich sehr einfach, hat aber einen sehr unglücklichen Namen. Wenn die Daten es uns erlauben, die Nullhypothese abzulehnen, sagen wir, dass „das Ergebnis statistisch signifikant ist“, was oft zu „das Ergebnis ist signifikant“ verkürzt wird. Diese Terminologie ist ziemlich alt und stammt aus einer Zeit, als „signifikant“ noch so etwas wie „angedeutet“ bedeutete, und nicht in seiner modernen Bedeutung, die viel näher an „wichtig“ (oder „bedeutsam“) liegt. Daher sind viele moderne Leser sehr verwirrt, wenn sie anfangen, Statistik zu lernen, weil sie denken, dass ein „signifikantes Ergebnis“ ein bedeutsames oder wichtiges Ergebnis sein muss. Das bedeutet es aber überhaupt nicht. „Statistisch signifikant“ bedeutet lediglich, dass die Daten es uns ermöglichen, eine Nullhypothese abzulehnen. Ob das Ergebnis in der realen Welt tatsächlich bedeutsam ist oder nicht, ist eine ganz andere Frage und hängt von vielen anderen Dingen ab.

Der Unterschied zwischen einseitigen und zweiseitigen Tests

Es gibt noch eine weitere Sache, die ich zum Hypothesentest, den ich gerade konstruiert habe, anmerken möchte. Wenn wir uns einen Moment Zeit nehmen, um über die statistischen Hypothesen nachzudenken, die ich verwendet habe,

H0: θ = 0.5

H1: θ ≠ 0.5

stellen wir fest, dass die Alternativhypothese sowohl die Möglichkeit, dass θ < 0,5 als auch die Möglichkeit, dass θ > 0,5 abdeckt. Das macht Sinn, wenn ich wirklich glaube, dass ESP entweder eine überdurchschnittliche oder eine unterdurchschnittliche Leistung hervorbringen könnte (und es gibt einige Leute, die das glauben). In der Sprache der Statistik ist dies ein Beispiel für einen zweiseitigen Test. Er wird so genannt, weil die Alternativhypothese den Bereich auf beiden „Seiten“ der Nullhypothese abdeckt. Folglich deckt der kritische Bereich des Tests, wie in Abb. 68 dargestellt, beide Enden der Stichprobenverteilung ab (2,5 % auf jeder Seite, wenn α = 0,05).

Aber das ist nicht die einzige Möglichkeit: Es könnte sein, dass ich nur dann bereit bin, an ESP zu glauben, wenn es bessere Leistungen als der Zufall hervorbringt. In diesem Fall würde meine Alternativhypothese nur die Möglichkeit abdecken, dass θ > 0,5 ist, und folglich würde die Nullhypothese jetzt θ ≤ 0,5 lauten.

H1: θ ≤ 0.5

H1: θ > 0.5

In diesem Fall handelt es sich um einen so genannten einseitigen Test und der kritische Bereich deckt nur einen Ausläufer der Stichprobenverteilung ab. Dies wird in Abb. 69 dargestellt.

Kritischer Bereich im Zusammenhang mit einem einseitigen Test

Abb. 69 Der kritische Bereich für einen einseitigen Test. In diesem Fall lautet die Alternativhypothese θ > 0,5, so dass die Nullhypothese nur für große Werte von X zurückgewiesen wird. Folglich deckt der kritische Bereich nur den oberen Ausläufer der Stichprobenverteilung ab, d.h. die oberen 5 % der Verteilung. Dies unterscheidet sich von der zweiseitigen Version in Abb. 68.