Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Stichprobenverteilungen und der zentrale Grenzwertsatz

Das Gesetz der großen Zahlen ist ein sehr mächtiges Instrument. Aber es reicht nicht aus, um alle unsere Fragen zu beantworten. Es gibt uns unter anderem nur eine „Langzeitgarantie“. Wenn es uns irgendwie gelänge, unendlich viele Daten zu sammeln, dann garantiert das Gesetz der großen Zahlen, dass unsere Stichprobenstatistiken auf lange Sicht korrekt sein werden. Aber wie John Maynard Keynes in den Wirtschaftswissenschaften bekanntlich argumentierte, ist eine Garantie auf lange Sicht im wirklichen Leben von geringem Nutzen.

Die Langfristigkeit ist ein irreführender Leitfaden für aktuelle Angelegenheiten. Auf lange Sicht sind wir alle tot. Die Ökonomen machen es sich zu leicht, zu nutzlos, wenn sie uns in stürmischen Zeiten nur sagen können, dass das Meer wieder flach ist, wenn der Sturm längst vorüber ist (Keynes, 1923).

Wie in der Wirtschaft gilt dies auch für die Psychologie und die Statistik. Es reicht nicht aus, zu wissen, dass wir langfristig die richtige Antwort erhalten, wenn wir den Stichprobenmittelwert berechnen. Das Wissen, dass ein unendlich großer Datensatz mir den genauen Wert des Mittelwerts der Grundgesamtheit sagen wird, ist ein schwacher Trost, wenn mein tatsächlicher Datensatz einen Stichprobenumfang von N = 100 hat. Im wirklichen Leben müssen wir also etwas über das Verhalten des Stichprobenmittelwerts wissen, wenn er aus einem bescheideneren Datensatz berechnet wird!

Stichprobenverteilung des Mittelwerts

Vor diesem Hintergrund sollten wir uns von der Vorstellung verabschieden, dass unsere Studien eine Stichprobengröße von 10.000 Personen haben, und stattdessen ein viel bescheideneres Experiment in Betracht ziehen. Diesmal nehmen wir eine Stichprobe N = 5 Personen und messen ihre IQ-Werte. Wie zuvor kann ich dieses Experiment in der Funktion jamovi = NORM(100,15) simulieren, aber diesmal brauche ich nur 5 Teilnehmer-IDs, nicht 10.000. Dies sind die fünf Zahlen, die jamovi erzeugt hat:

90 82 94 99 110

Der durchschnittliche IQ in dieser Stichprobe liegt bei genau 95. Es überrascht nicht, dass dies viel ungenauer ist als das vorherige Experiment. Stellen Sie sich nun vor, ich beschließe, das Experiment zu replizieren. Das heißt, ich wiederhole das Verfahren so genau wie möglich und nehme nach dem Zufallsprinzip 5 neue Personen und messe ihren IQ. Wiederum erlaubt mir jamovi, die Ergebnisse dieses Verfahrens zu simulieren, und generiert diese fünf Zahlen:

78 88 111 111 117

Dieses Mal liegt der mittlere IQ in meiner Stichprobe bei 101. Wenn ich das Experiment 10 Mal wiederhole, erhalte ich die in Tab. 8 gezeigten Ergebnisse, und wie Sie sehen können, variiert der Stichprobenmittelwert von einer Wiederholung zur nächsten.

Tab. 8 Zehn Wiederholungen des IQ-Experiments, jeweils mit einer Stichprobengröße von N =5

Person 1

Person 2

Person 3

Person 4

Person 5

Stichprobenmittelwert

Replikation 1

90

82

94

99

110

95.0

Replikation 2

78

88

111

111

117

101.0

Replikation 3

111

122

91

98

86

101.6

Replikation 4

98

96

119

99

107

103.8

Replikation 5

105

113

103

103

98

104.4

Replikation 6

81

89

93

85

114

92.4

Replikation 7

100

93

108

98

133

106.4

Replikation 8

107

100

105

117

85

102.8

Replikation 9

86

119

108

73

116

100.4

Replikation 10

95

126

112

120

76

105.8

Nehmen wir nun an, ich beschließe, so weiterzumachen und das Experiment „fünf IQ-Werte“ immer wieder zu wiederholen. Jedes Mal, wenn ich das Experiment wiederhole, schreibe ich den Mittelwert der Stichprobe auf. Mit der Zeit würde ich einen neuen Datensatz sammeln, in dem jedes Experiment einen einzelnen Datenpunkt erzeugt. Die ersten 10 Beobachtungen meines Datensatzes sind die Stichprobenmittelwerte, die in Tab. 8 aufgelistet sind, so dass mein Datensatz folgendermaßen beginnt:

95.0 101.0 101.6 103.8 104.4 …

Was wäre, wenn ich 10.000 Wiederholungen durchführen und dann ein Histogramm zeichnen würde? Nun, genau das habe ich getan, und Sie können die Ergebnisse in Abb. 60 sehen. Wie dieses Bild zeigt, liegt der Durchschnitt von 5 IQ-Werten normalerweise zwischen 90 und 110. Was aber noch wichtiger ist, ist die Tatsache, dass wir, wenn wir ein Experiment immer und immer wieder wiederholen, eine Verteilung der Stichprobenmittelwerte erhalten! Diese Verteilung hat in der Statistik einen besonderen Namen, sie heißt Stichprobenverteilung des Mittelwerts.

Stichprobenverteilung: Mittelwert für das „Experiment mit fünf IQ-Werten“

Abb. 60 Die Stichprobenverteilung des Mittelwerts für das „Experiment mit fünf IQ-Werten“: Wenn man eine Zufallsstichprobe von 5 Personen nimmt und ihren durchschnittlichen IQ berechnet, erhält man mit ziemlicher Sicherheit eine Zahl zwischen 80 und 120, auch wenn es eine ganze Reihe von Personen gibt, deren IQ über 120 oder unter 80 liegt. Zum Vergleich: Die schwarze Linie zeigt die Verteilung der IQ-Werte in der Population.

Stichprobenverteilungen sind eine weitere wichtige theoretische Idee in der Statistik, und sie sind entscheidend für das Verständnis des Verhaltens kleiner Stichproben. Als ich zum Beispiel das allererste „Fünf IQ-Werte“-Experiment durchführte, stellte sich heraus, dass der Stichprobenmittelwert bei 95 lag. Die Stichprobenverteilung in Abb. 60 sagt uns jedoch, dass das Experiment „Fünf IQ-Werte“ nicht sehr genau ist. Wenn ich das Experiment wiederhole, sagt mir die Stichprobenverteilung, dass ich einen Stichprobenmittelwert irgendwo zwischen 80 und 120 erwarten kann.

Stichprobenverteilungen existieren für jede Stichprobenstatistik!

Wenn Sie über Stichprobenverteilungen nachdenken, sollten Sie daran denken, dass jede Stichprobenstatistik, die Sie berechnen möchten, eine Stichprobenverteilung hat. Nehmen wir zum Beispiel an, dass ich jedes Mal, wenn ich das Experiment „fünf IQ-Werte“ wiederhole, den höchsten IQ-Wert des Experiments notiere. Dadurch würde ich einen Datensatz erhalten, der wie folgt beginnt:

110 117 122 119 113 …

Würde ich dies immer wieder tun, würde ich eine ganz andere Stichprobenverteilung erhalten, nämlich die Stichprobenverteilung des Maximums. Die Stichprobenverteilung des Maximums von 5 IQ-Werten ist in Abb. 61 dargestellt. Es überrascht nicht, dass, wenn man 5 Personen nach dem Zufallsprinzip auswählt und dann die Person mit dem höchsten IQ-Wert findet, diese einen überdurchschnittlichen IQ haben wird. Meistens findet man jemanden, dessen IQ im Bereich von 100 bis 140 liegt.

Stichprobenverteilung: Maximum für das „Experiment mit fünf IQ-Werten“

Abb. 61 Die Stichprobenverteilung des Maximums für das „Experiment mit fünf IQ-Werten“: Wenn man 5 Personen nach dem Zufallsprinzip auswählt und diejenige mit dem höchsten IQ-Wert auswählt, wird man wahrscheinlich jemanden mit einem IQ zwischen 100 und 140 finden.

Der zentrale Grenzwertsatz

Ich hoffe, Sie haben jetzt eine Vorstellung davon, was Stichprobenverteilungen sind, und insbesondere, was die Stichprobenverteilung des Mittelwerts ist. In diesem Abschnitt möchte ich darüber sprechen, wie sich die Stichprobenverteilung des Mittelwerts in Abhängigkeit vom Stichprobenumfang verändert. Intuitiv kennen Sie bereits einen Teil der Antwort. Wenn Sie nur wenige Beobachtungen haben, ist der Stichprobenmittelwert wahrscheinlich recht ungenau. Wenn Sie ein Experiment mit wenigen Teilnehmern wiederholen und den Mittelwert neu berechnen, werden Sie eine ganz andere Antwort erhalten. Mit anderen Worten: Die Stichprobenverteilung ist recht breit. Wenn Sie ein Experiment mit vielen Teilnehmern wiederholen und den Mittelwert der Stichprobe neu berechnen, erhalten Sie wahrscheinlich eine sehr ähnliche Antwort wie beim letzten Mal, d. h. die Stichprobenverteilung ist sehr eng. Dies wird in Abb. 62 deutlich: Je größer die Stichprobe ist, desto enger wird die Stichprobenverteilung. Wir können diesen Effekt quantifizieren, indem wir die Standardabweichung der Stichprobenverteilung berechnen, die als Standardfehler bezeichnet wird. Der Standardfehler einer Statistik wird oft mit SE bezeichnet, und da wir uns in der Regel für den Standardfehler des Mittelwerts der Stichprobe interessieren, verwenden wir oft das Akronym SEM. Wie Sie aus der Abbildung ersehen können, nimmt der SEM ab, wenn der Stichprobenumfang N steigt.

Aussehen der Stichprobenverteilung in Abhängigkeit vom Stichprobenumfang

Abb. 62 Veranschaulichung der Abhängigkeit der Stichprobenverteilung des Mittelwerts vom Stichprobenumfang. In jedem Panel habe ich 10.000 Stichproben von IQ-Daten generiert und den in jedem dieser Datensätze beobachteten mittleren IQ berechnet. Die Histogramme in diesen Diagrammen zeigen die Verteilung dieser Mittelwerte (d. h. die Stichprobenverteilung des Mittelwerts). Jeder einzelne IQ-Wert wurde einer Normalverteilung mit einem Mittelwert von 100 und einer Standardabweichung von 15 entnommen, die als durchgezogene schwarze Linie dargestellt ist. Im linken Feld enthielt jeder Datensatz nur eine einzige Beobachtung, so dass der Mittelwert jeder Stichprobe nur den IQ-Wert einer Person darstellt. Folglich ist die Stichprobenverteilung des Mittelwerts natürlich identisch mit der Grundgesamtheitsverteilung der IQ-Werte. Erhöht man jedoch den Stichprobenumfang auf 2 (Mitte), so liegt der Mittelwert einer Stichprobe tendenziell näher am Mittelwert der Grundgesamtheit als am IQ-Wert einer einzelnen Person, so dass das Histogramm (d. h. die Stichprobenverteilung) etwas enger ist als die Grundgesamtheitsverteilung. Wenn wir den Stichprobenumfang auf 10 erhöhen (rechts), können wir sehen, dass die Verteilung der Stichprobenmittelwerte dazu neigt, sich ziemlich eng um den wahren Grundgesamtheitsmittelwert zu gruppieren.

Das ist also ein Teil der Geschichte. Es gibt jedoch etwas, das ich bisher übersehen habe. Alle meine bisherigen Beispiele basierten auf den Experimenten zu den „IQ-Werten“, und da die IQ-Werte ungefähr normal verteilt sind, habe ich angenommen, dass die Verteilung in der Population normal ist. Was aber, wenn sie nicht normal ist? Was passiert dann mit der Stichprobenverteilung des Mittelwerts? Das Bemerkenswerte ist, dass unabhängig von der Form der Grundgesamtheit die Stichprobenverteilung des Mittelwerts mit zunehmender N immer mehr wie eine Normalverteilung aussieht. Um Ihnen einen Eindruck davon zu vermitteln, habe ich einige Simulationen durchgeführt. Dazu habe ich mit der „Rampen“-Verteilung begonnen, die im Histogramm in Abb. 63 (oben links) dargestellt ist. Wenn man das dreieckige Histogramm mit der Glockenkurve vergleicht, die durch die schwarze Linie dargestellt wird, sieht die Verteilung der Population überhaupt nicht wie eine Normalverteilung aus. Als Nächstes habe ich die Ergebnisse einer großen Anzahl von Experimenten simuliert. Bei jedem Experiment habe ich N = 2 Stichproben aus dieser Verteilung genommen und dann den Stichprobenmittelwert berechnet. Abb. 63 (rechts oben) zeigt das Histogramm dieser Stichprobenmittelwerte (d.h. die Stichprobenverteilung des Mittelwertes für N = 2). Dieses Mal ergibt das Histogramm eine ∩-förmige Verteilung. Sie ist zwar immer noch nicht normal, aber sie liegt viel näher an der schwarzen Linie als die Verteilung der Grundgesamtheit in Abb. 63 (links oben). Wenn ich den Stichprobenumfang auf N = 4 erhöhe, ist die Stichprobenverteilung des Mittelwerts sehr nahe an der Normalverteilung (Abb. 63, unten links), und bei einem Stichprobenumfang von N = 8 (Abb. 63; unten rechts) ist sie fast vollkommen normal. Mit anderen Worten: Solange der Stichprobenumfang nicht winzig ist, ist die Stichprobenverteilung des Mittelwerts annähernd normal, egal wie die Verteilung in der Grundgesamtheit aussieht!

Veranschaulichung des zentralen Grenzwertsatzes

Abb. 63 Veranschaulichung des zentralen Grenzwertsatzes: Im linken oberen Feld haben wir eine nicht-normale Verteilung der Grundgesamtheit, und die übrigen Felder zeigen die Stichprobenverteilung des Mittelwerts für Stichproben der Größe 2 (oben rechts), 4 (unten links) und 8 (unten rechts) für Daten, die aus der Verteilung im linken oberen Feld gezogen wurden. Wie Sie sehen, nähert sich die Stichprobenverteilung des Mittelwerts trotz der nicht-normalen Verteilung der Grundgesamtheit der Normalverteilung an, sobald Sie eine Stichprobe mit nur 4 Beobachtungen haben.

Auf der Grundlage dieser Zahlen scheint es, als hätten wir Beweise für alle folgenden Behauptungen über die Stichprobenverteilung des Mittelwerts.

  • Der Mittelwert der Stichprobenverteilung entspricht dem Mittelwert der Grundgesamtheit

  • Die Standardabweichung der Stichprobenverteilung (d. h. der Standardfehler) wird mit zunehmendem Stichprobenumfang kleiner

  • Die Form der Stichprobenverteilung nähert sich mit zunehmendem Stichprobenumfang einer Normalverteilung

Zufälligerweise sind nicht nur alle diese Aussagen wahr, sondern es gibt auch ein sehr berühmtes Theorem in der Statistik, das alle drei Aussagen beweist, der so genannte zentrale Grenzwertsatz. Der zentrale Grenzwertsatz besagt unter anderem, dass, wenn die Verteilung der Grundgesamtheit einen Mittelwert µ und eine Standardabweichung σ hat, so hat die Stichprobenverteilung des Mittelwerts ebenfalls den Mittelwert µ und der Standardfehler des Mittelwerts beträgt

\[\mbox{SEM} = \frac{\sigma}{ \sqrt{N} }\]

Da wir die Standardabweichung der Grundgesamtheit σ durch die Quadratwurzel des Stichprobenumfangs N teilen, wird der SEM kleiner, wenn der Stichprobenumfang zunimmt. Er sagt uns auch, dass die Form der Stichprobenverteilung sich der Normalverteilung annähert.[1]

Dieses Ergebnis ist für alle möglichen Dinge nützlich. Es sagt uns, warum große Experimente zuverlässiger sind als kleine, und weil es eine explizite Formel für den Standardfehler angibt, sagt es uns wie viel zuverlässiger ein großes Experiment ist. Sie sagt uns auch, warum die Normalverteilung, normal ist. In realen Experimenten sind viele der Dinge, die wir messen wollen, eigentlich Durchschnittswerte aus vielen verschiedenen Größen (z. B. ist die „allgemeine“ Intelligenz, die durch den IQ gemessen wird, wohl ein Durchschnittswert aus einer großen Anzahl „spezifischer“ Fähigkeiten und Fertigkeiten), und wenn das passiert, sollte die gemittelte Größe einer Normalverteilung folgen. Aufgrund dieses mathematischen Gesetzes taucht die Normalverteilung immer wieder in realen Daten auf.