Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Der z-Test bei einer Stichprobe

In diesem Abschnitt beschreibe ich einen der nutzlosesten Tests in der gesamten Statistik: den z-Test. Im Ernst: Dieser Test wird im wirklichen Leben fast nie verwendet. Sein einziger wirklicher Zweck besteht darin, dass er ein sehr bequemes Sprungbrett auf dem Weg zum t-Test im Statistikunterricht ist, und das wahrscheinlich das am meisten (über-)benutzte Werkzeug in der gesamten Statistik.

Das Inferenzproblem, das der Test adressiert

Um die Idee hinter dem z-Test zu erläutern, wollen wir ein einfaches Beispiel verwenden. Ein Freund von mir, Dr. Zeppo, benotet seinen Einführungskurs in Statistik entsprechend einer Normalverteilungskurve. Nehmen wir an, dass die Durchschnittsnote in seinem Kurs 67,5 beträgt und die Standardabweichung 9,5 ist. Es stellt sich heraus, dass von seinen vielen hundert Studenten 20 auch Psychologie belegen. Aus Neugier frage ich mich, ob die Psychologiestudenten tendenziell die gleichen Noten wie alle anderen bekommen (d. h. den Mittelwert von 67,5) oder ob sie tendenziell besser oder schlechter abschneiden? Er schickt mir den Datensatz zeppo, in dem ich mir die Noten (grades) dieser Schüler als jamovi-Datentabelle ansehen kann,

50 60 60 64 66 66 67 69 70 74 76 76 77 79 79 79 81 82 82 89

danach wird der Mittelwert mit Exploration → Descriptives berechnet. Der Mittelwert beträgt 72,3.

Es könnte sein, dass die Psychologiestudenten etwas höhere Werte als andere Studenten erreichen. Der Stichprobenmittelwert von X̄ = 72,3 ist ein gutes Stück höher als der hypothetische Populationsmittelwert von µ = 67,5. Aber andererseits ist eine Stichprobengröße von N = 20 nicht wirklich groß. Vielleicht ist es reiner Zufall.

Um die Frage zu beantworten, ist es hilfreich, wenn ich aufschreibe, was ich zu wissen glaube. Erstens weiß ich, dass der Stichprobenmittelwert X̄ = 72,3 beträgt. Wenn ich davon ausgehe, dass die Psychologiestudenten die gleiche Standardabweichung haben wie der Rest der Klasse, kann ich sagen, dass die Standardabweichung der Grundgesamtheit σ = 9,5 ist. Ich nehme außerdem an, dass die Noten der Psychologiestudenten normalverteilt sind, da Dr. Zeppo sie entsprechend einer Normalverteilungskurve benotet.

Als Nächstes ist es hilfreich, sich darüber klar zu werden, was ich aus den Daten lernen möchte. In diesem Fall bezieht sich meine Forschungshypothese auf den Mittelwert µ der Population in Bezug auf die Noten der Psychologiestudenten, der unbekannt ist. Konkret möchte ich wissen, ob µ = 67,5 ist oder nicht. Können wir, da ich dies weiß, einen Hypothesentest zur Lösung unseres Problems aufstellen? Die Daten sind zusammen mit der hypothetischen Verteilung, von der man annimmt, dass sie aus dieser stammen, in Abb. 82 dargestellt. Es ist nicht ganz klar, was die richtige Antwort ist. Hierfür benötigen wir einige statistische Daten.

Theoretische und empirische Verteilung der Schülernoten — Abb. 82 Die theoretische Verteilung (durchgezogene Linie), aus der sich die Noten der Psychologiestudenten (Balken) ergeben haben sollen.

Aufbau unseres Hypothesentests

Der erste Schritt beim Durchführen eines Hypothesentests besteht darin, sich über die Null- und die Alternativhypothese klar zu werden. Dies ist nicht allzu schwer. Unsere Nullhypothese, H₀, besagt, dass der wahre Populationsmittelwert µ für die Noten von Psychologiestudenten 67,5 % beträgt, und unsere Alternativhypothese lautet, dass der Populationsmittelwert nicht 67,5 % beträgt. Wenn wir dies in mathematischer Notation schreiben, werden diese Hypothesen zu:

H₀: µ = 67.5

H₁: µ ≠ 67.5

Obwohl diese Notation ehrlich gesagt nicht viel zu unserem Verständnis des Problems beiträgt, ist es eine kompakte Art, aufzuschreiben, was wir aus den Daten zu lernen versuchen. Die Nullhypothesen H₀ und die Alternativhypothese H₁ für unseren Test sind beide in Abb. 83 dargestellt. Das oben beschriebene Szenario liefert uns nicht nur diese Hypothesen, sondern auch einiges an Hintergrundwissen, das nützlich sein könnte. Insbesondere gibt es zwei spezielle Informationen, die ebenfalls relevant sind:

Die Noten der Psychologiestudenten sind normalverteilt.
Die tatsächliche Standardabweichung dieser Werte σ beträgt bekanntlich 9,5.

Für den Moment tun wir so, als ob dies absolut vertrauenswürdige Fakten wären. Im wirklichen Leben gibt es diese Art von absolut vertrauenswürdigem Hintergrundwissen nicht, und wenn wir uns auf diese Fakten verlassen wollen, müssen wir einfach die Annahme machen, dass diese Dinge wahr sind. Da diese Annahmen jedoch gerechtfertigt oder nicht gerechtfertigt sein können, müssen wir sie möglicherweise überprüfen. Für den Moment wollen wir die Dinge jedoch nicht zu kompliziert machen.

*z*-Test bei einer Stichprobe: Veranschaulichung der Null- und Alternativhypothesen — Abb. 83 Grafische Darstellung der Null- und Alternativhypothesen für den z-Test bei einer Stichprobe (und zweiseitiger Testung). Die Nullhypothese und die Alternativhypothese gehen beide davon aus, dass die Grundgesamtheit normalverteilt ist, und nehmen zusätzlich an, dass die Standardabweichung der Grundgesamtheit bekannt ist (festgelegt auf einen bestimmten Wert σ₀). Die Nullhypothese (links) lautet, dass der Mittelwert μ der Grundgesamtheit gleich einem bestimmten Wert μ₀ ist. Die Alternativhypothese lautet, dass der Mittelwert der Grundgesamtheit von diesem Wert abweicht, μ ≠ μ₀.

Der nächste Schritt besteht darin, herauszufinden, was eine gute Wahl für eine Teststatistik wäre, etwas, das uns helfen würde, zwischen H₀ und H₁ zu unterscheiden. Da sich die Hypothesen alle auf den Mittelwert der Grundgesamtheit µ beziehen, kann man davon ausgehen, dass der Stichprobenmittelwert X̄ ein guter Ausgangspunkt ist. Wir könnten uns die Differenz zwischen dem Stichprobenmittelwert X̄ und dem Wert ansehen, den die Nullhypothese als Mittelwert der Grundgesamtheit µ vorhersagt. In unserem Beispiel würde das bedeuten, dass wir X̄ - 67,5 berechnen. Allgemeiner ausgedrückt: Wenn wir µ₀ auf den Wert beziehen, den die Nullhypothese als Mittelwert der Grundgesamtheit vorgibt, dann würden wir Folgendes berechnen wollen

X̄ - µ₀

Wenn diese Größe gleich oder sehr nahe bei 0 ist, spricht dies für die Nullhypothese. Wenn diese Größe weit von 0 entfernt ist, dann ist es weniger wahrscheinlich, dass die Nullhypothese korrekt ist und beibehalten werden kann. Aber wie weit sollte die Differenz von Null entfernt sein, damit wir die H₀ zurückweisen können?

Um das herauszufinden, müssen wir etwas raffinierter vorgehen und uns auf die beiden zuvor genannten Hintergrundinformationen stützen, nämlich dass die Rohdaten normalverteilt sind und dass wir den Wert der Standardabweichung in der Grundgesamtheit σ kennen. Wenn die Nullhypothese tatsächlich wahr ist und der wahre Mittelwert µ₀ ist, dann bedeuten diese Tatsachen zusammen, dass wir die Verteilung der Daten in der Population kennen: eine Normalverteilung mit dem Mittelwert µ₀ und der Standardabweichung σ. In Anlehnung an die Notation aus dem Abschnitt Die Normalverteilung könnte ein Statistiker dies so schreiben:

X ~ Normal(μ:sub:‘0‘, σ²)

Was können wir dann über die Verteilung von X̄ sagen, wenn diese Annahme wahr ist? Wie wir bereits besprochen haben (siehe Der zentrale Grenzwertsatz), ist die Stichprobenverteilung des Mittelwerts X̄ ebenfalls normalverteilt und hat den Mittelwert µ. Aber die Standardabweichung dieser Stichprobenverteilung SE(X̄), die Standardfehler des Mittelwerts genannt wird, ist

\[SE(X̄) = \frac{\sigma}{\sqrt{N}}\]

Mit anderen Worten: Wenn die Nullhypothese wahr ist, kann die Stichprobenverteilung des Mittelwerts wie folgt geschrieben werden:

X̄ ~ Normal(µ₀, SE(X̄))

Dadurch können wir den Stichprobenmittelwert X̄ in einen Standardwert umwandeln. Dieser wird üblicherweise als z geschrieben, aber für den Moment beziehe ich mich darauf als z_X̄ (der Grund, diese erweiterte Schreibweise zu verwenden, ist, dass Sie sich daran erinnern können, dass wir eine standardisierte Version eines Stichprobenmittelwerts berechnen, nicht eine standardisierte Version einer einzelnen Beobachtung, worauf sich ein z-Score normalerweise bezieht). Der z-Score für unseren Stichprobenmittelwert lautet dann:

\[z_{\bar{X}} = \frac{\bar{X} - \mu_0}{SE(X̄)}\]

oder, gleichwertig:

\[z_{\bar{X}} = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{N}}\]

Dieser z-score ist unsere Teststatistik. Das Schöne beim Verwenden dieses Wertes als Teststatistik ist, dass er wie alle z-Scores einer Standardnormalverteilung folgt:

z_*X̄* ~ Normal(0, 1)

(siehe auch den Abschnitt Standardwerte, falls Sie vergessen haben, warum das so ist). Mit anderen Worten: Unabhängig davon, auf welcher Skala die Originaldaten liegen, hat die z-Statistik immer dieselbe Interpretation: Sie ist gleich der Anzahl der Standardfehler, die den beobachteten Stichprobenmittelwert X̄ von dem durch die Nullhypothese vorhergesagten Populationsmittelwert µ₀ trennen. Noch besser: Unabhängig davon, wie die Populationsparameter für die Rohwerte tatsächlich aussehen, sind die kritischen 5%-Werte für den z-Test immer die gleichen, wie in Abb. 84 dargestellt. In den Zeiten, als die Leute ihre Statistiken noch von Hand erstellten, bedeutete dies, dass jemand eine Tabelle wie diese veröffentlichen konnte:

gewünschtes α-Niveau	zweiseitige Prüfung	einseitige Prüfung
0.1	1.644854	1.281552
0.05	1.959964	1.644854
0.01	2.575829	2.326348
0.001	3.290527	3.090232

Dies wiederum bedeutete, dass Forscher ihre z-Statistik von Hand berechnen und dann den kritischen Wert in einer Tabelle nachschlagen konnten.

Ablehnungsbereiche für die zwei- und einseitigen *z*-Tests — Abb. 84 Ablehnungsbereiche für den zweiseitigen z-Test (links) und den einseitigen z-Test (rechts)

Ein praktisches Beispiel, Schritt-für-Schritt

Wie ich bereits erwähnt habe, wird der z-Test in der Praxis fast nie verwendet. Er wird im wirklichen Leben so selten verwendet, dass jamovi keine eingebaute Funktion dafür hat. Der Test ist jedoch so unglaublich einfach, dass er ohne Probleme manuell durchgeführt werden kann. Wenden wir uns zurück zum Datensatz zeppo. Als Erstes muss ich den Stichprobenmittelwert für die Variable grades berechnen, was ich bereits getan habe (72,3). Wir haben bereits die bekannte Standardabweichung der Grundgesamtheit (σ = 9,5) und den Wert des Mittelwerts der Grundgesamtheit, den die Nullhypothese vorgibt (µ₀ = 67,5), außerdem kennen wir den Stichprobenumfang (N = 20).

Als Nächstes berechnen wir den (wahren) Standardfehler des Mittelwerts (dies ist mit einem Taschenrechner leicht möglich):

sem.true = sd.true / sqrt(N)
         = 9.5 / sqrt(20)
         = 2.124265

Und schließlich berechnen wir unseren z-Wert:

z.score  = (sample.mean - mu.null) / sem.true
         = (72.3 - 67.5) / 2.124265
         = 2.259606

An diesem Punkt würden wir traditionell den Wert 2,26 in unserer Tabelle der kritischen Werte nachschlagen. Unsere ursprüngliche Hypothese war zweiseitig (wir hatten nicht wirklich eine Theorie darüber, ob Psychologiestudenten besser oder schlechter in Statistik sind als andere Studenten), also ist auch unser Hypothesentest zweiseitig. Ein Blick auf die kleine Tabelle, die ich vorhin gezeigt habe, zeigt uns, dass 2,26 größer ist als der kritische Wert von 1,96, der erforderlich wäre, um bei α = 0,05 signifikant zu sein, aber kleiner als der Wert von 2,58, der erforderlich wäre, um bei einem Niveau von α = 0,01 signifikant zu sein. Daraus können wir schließen, dass wir einen signifikanten Effekt haben, den wir etwa so formulieren könnten:

Bei einem Notendurchschnitt von 72,3 in der Stichprobe der Psychologiestudenten und unter der Annahme einer wahren Standardabweichung der Grundgesamtheit von 9,5 können wir schließen, dass die Psychologiestudenten signifikant andere Statistikwerte haben als der Klassendurchschnitt (z = 2,26, N = 20, p < 0,05).

Voraussetzungen für den z-Test

Wie ich bereits gesagt habe, beruhen alle statistischen Tests auf Annahmen. Bei einigen Tests sind die Annahmen vernünftig, bei anderen nicht. Der Test, den ich gerade beschrieben habe, der z-Test mit einer Stichprobe, geht von drei Grundannahmen aus. Diese sind:

Normalverteilung. Wie üblicherweise beschrieben, geht der z-Test davon aus, dass die wahre Verteilung der Grundgesamtheit eine Normalverteilung ist.[1] Dies ist oft eine ziemlich vernünftige Annahme, und es ist auch eine Annahme, die wir überprüfen können, wenn wir uns darüber Sorgen machen (siehe den Abschnitt Überprüfen der Normalverteilung in einer Stichprobe).
Unabhängigkeit. Die zweite Annahme des Tests ist, dass die Beobachtungen in Ihrem Datensatz nicht miteinander korreliert sind oder auf irgendeine andere merkwürdige Weise miteinander zusammenhängen. Dies ist statistisch nicht so einfach zu überprüfen, da es eher von einem guten Versuchsdesign abhängt. Ein offensichtliches (und dummes) Beispiel für einen Verstoß gegen diese Annahme ist ein Datensatz, bei dem man dieselbe Beobachtung immer wieder in die Datei „kopiert“, so dass man am Ende eine riesige „Stichprobengröße“ hat, die nur aus einer einzigen echten Beobachtung besteht. Realistischer betrachtet muss man sich fragen, ob es wirklich plausibel ist, sich vorzustellen, dass jede Beobachtung eine vollständige Zufallsstichprobe aus der Grundgesamtheit ist, die einen interessiert. In der Praxis ist diese Annahme nie erfüllt, aber wir versuchen unser Bestes, um Studien so zu konzipieren, dass die Probleme mit korrelierten Daten möglichst gering sind.
Bekannte Standardabweichung. Die dritte Annahme des z-Tests ist, dass die wahre Standardabweichung in der Grundgesamtheit bekannt ist. Die Annahme ist einfach nur dumm und unrealistisch. Bei keinem realen Datenanalyseproblem kennt man die Standardabweichung σ in der Grundgesamtheit, weiß aber nichts über den Mittelwert µ. Mit anderen Worten, diese Annahme ist immer falsch.

Angesichts der Dummheit der Annahme, dass σ bekannt ist, wollen wir sehen, ob wir ohne sie leben können. Damit verlassen wir die triste Domäne des z-Tests und begeben uns in das magische Reich des t-Tests, mit Einhörnern, Feen und Kobolden!