Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Schätzen von Populationsparametern

Bei allen IQ-Beispielen in den vorangegangenen Abschnitten kannten wir die Parameter der Grundgesamtheit bereits im Voraus. Wie jedem Studenten in der allerersten Vorlesung über die Messung von Intelligenz beigebracht wird, sind die IQ-Werte mit einem Mittelwert von 100 und einer Standardabweichung von 15 definiert. Dies ist jedoch eine kleine Lüge. Woher wissen wir, dass die IQ-Werte tatsächlich einen Populationsmittelwert von 100 haben? Nun, wir wissen das, weil die Leute, welche die Tests entwickelt haben, sie an sehr großen Stichproben durchgeführt und dann die Bewertungsregeln so „manipuliert“ (oder besser: „angepasst“) haben, dass ihre Stichprobe einen Mittelwert von 100 hat. Das ist natürlich nichts Schlechtes, sondern ein wichtiger Teil der Entwicklung einer psychologischen Messung. Es ist jedoch wichtig zu bedenken, dass dieser theoretische Mittelwert von 100 nur für die Population gilt, die die Testentwickler für die Konzeption der Tests verwendet haben. Gute Testentwickler geben sich Mühe, „Testnormen“ zu erstellen, die für viele verschiedene Populationen gelten können (z. B. verschiedene Altersgruppen, Nationalitäten usw.).

Das ist sehr praktisch, aber natürlich wird bei fast jedem interessanten Forschungsprojekt eine andere Bevölkerungsgruppe untersucht als die, die für die Testnormen verwendet wurde. Nehmen wir zum Beispiel an, Sie wollten herausfinden wollen, welche Auswirkungen ständig einer (wenn auch geringen) Menge Blei ausgesetzt zu sein auf die kognitiven Fähigkeiten hat. Sie führen daher Messungen in Port Pirie, einer südaustralischen Industriestadt mit einer Bleischmelze, durch. Vielleicht beschließen Sie, die IQ-Werte der Menschen in Port Pirie mit einer vergleichbaren Stichprobe in Whyalla, einer südaustralischen Industriestadt mit einer Stahlraffinerie, zu vergleichen.[1] Unabhängig davon, an welche Stadt Sie denken, macht es nicht viel Sinn, einfach davon auszugehen, dass der wahre Durchschnitts-IQ der Population 100 beträgt. Meines Wissens hat noch niemand vernünftige Normierungsdaten vorgelegt, die sich automatisch auf südaustralische Industriestädte anwenden lassen. Wir müssen die Populationsparameter aus einer Stichprobe von Daten schätzen. Wie machen wir das also?

Schätzen des Mittelwerts der Grundgesamtheit

Nehmen wir an, wir fahren nach Port Pirie und 100 Einheimische sind so freundlich, sich einem IQ-Test zu unterziehen. Der durchschnittliche IQ-Wert unter diesen Menschen beträgt = 98,5. Wie hoch ist also der tatsächliche Durchschnitts-IQ für die gesamte Bevölkerung von Port Pirie? Offensichtlich kennen wir die Antwort auf diese Frage nicht. Er könnte bei 97,2 liegen, aber auch bei 103,5. Unsere Stichprobe ist nicht erschöpfend, so dass wir keine endgültige Antwort geben können. Wenn ich jedoch mit vorgehaltener Waffe gezwungen wäre, eine „beste Schätzung“ abzugeben, würde ich 98,5 sagen. Das ist das Wesentliche einer statistischen Schätzung: eine beste Schätzung abzugeben.

In diesem Beispiel ist das Schätzen des unbekannten Populationsparameters ganz einfach. Ich berechne den Stichprobenmittelwert und verwende ihn als Schätzung des Populationsmittelwerts. Das ist ziemlich einfach, und im nächsten Abschnitt werde ich die statistische Rechtfertigung für diese intuitive Antwort erläutern. Im Moment möchte ich jedoch sicherstellen, dass Sie erkennen, dass es sich bei der Stichprobenstatistik und der Schätzung des Populationsparameters um konzeptionell unterschiedliche Dinge handelt. Eine Stichprobenstatistik ist eine Beschreibung Ihrer Daten, während die Schätzung eine Vermutung über die Grundgesamtheit ist. Aus diesem Grund verwenden Statistiker häufig unterschiedliche Bezeichnungen für die beiden Begriffe. Wenn zum Beispiel der wahre Mittelwert der Grundgesamtheit mit µ bezeichnet wird, dann würden wir \(\hat\mu\) verwenden, um unsere Schätzung des Mittelwerts der Grundgesamtheit zu bezeichnen. Im Gegensatz dazu wird der Stichprobenmittelwert mit oder manchmal auch mit m oder M bezeichnet. Bei einfachen Zufallsstichproben ist der Schätzwert des Populationsmittelwerts jedoch identisch mit dem Stichprobenmittelwert. Wenn ich einen Stichprobenmittelwert von = 98,5 beobachte, dann ist mein Schätzwert für den Populationsmittelwert ebenfalls \(\hat\mu\) = 98,5. Um die Notation zu verdeutlichen, finden Sie hier eine praktische Tabelle:

Symbol

Was bedeutet das?

Wissen wir, was es ist?

Stichprobenmittelwert

Ja, berechnet aus den Rohdaten

µ

Wahrer Populationsmittelwert

Fast nie mit Sicherheit bekannt

\(\hat{\mu}\)

Schätzung des Mittelwerts der Grundgesamtheit

Ja, bei einfachen Zufallsstichproben mit dem Stichprobenmittelwert identisch

Schätzen der Standardabweichung der Grundgesamtheit

Bis jetzt scheint die Schätzung ziemlich einfach zu sein, und Sie werden sich vielleicht fragen, warum ich Sie gezwungen habe, den ganzen Kram über Stichprobentheorie durchzulesen. Im Fall des Mittelwerts hat sich herausgestellt, dass unsere Schätzung des Populationsparameters (d. h. \(\hat\mu\)) identisch mit der entsprechenden Stichprobenstatistik ist (d. h. ). Das ist jedoch nicht immer der Fall. Um das zu sehen, überlegen wir uns, wie wir eine Schätzung der Standardabweichung der Grundgesamtheit konstruieren können, die wir als \(\hat\sigma\) bezeichnen. Was sollen wir in diesem Fall als Schätzung verwenden? Ihr erster Gedanke könnte sein, dass wir dasselbe tun könnten wie beim Schätzen des Mittelwerts und einfach die Stichprobenstatistik als Schätzer verwenden. Das ist fast das Richtige, aber nicht ganz.

Und zwar aus folgendem Grund. Angenommen, ich habe eine Stichprobe, die eine einzige Beobachtung enthält. Für dieses Beispiel ist es hilfreich, sich eine Stichprobe vorzustellen, bei der man überhaupt keine Vorstellung davon hat, wie die wahren Werte der Grundgesamtheit aussehen könnten, also nehmen wir etwas völlig Fiktives. Nehmen wir an, die betreffende Beobachtung misst die cromulence meiner Schuhe. Es stellt sich heraus, dass meine Schuhe eine cromulence von 20 haben. Hier ist also meine Probe:

20

Es handelt sich hier um eine völlig legitime Stichprobe, auch wenn sie einen Stichprobenumfang von N = 1 hat. Sie hat einen Stichprobenmittelwert von 20, und da jede Beobachtung in dieser Stichprobe gleich dem Stichprobenmittelwert ist (offensichtlich!), hat sie eine Stichprobenstandardabweichung von 0. Als Beschreibung der Stichprobe scheint dies ganz richtig zu sein, da die Stichprobe eine einzige Beobachtung enthält und daher keine Variation innerhalb der Stichprobe beobachtet wird. Eine Stichprobenstandardabweichung von s = 0 ist hier die richtige Antwort. Aber als Schätzung der Standardabweichung der Grundgesamtheit erscheint sie völlig unsinnig, oder? Zugegeben, Sie und ich wissen überhaupt nicht, was cromulence ist, aber wir wissen etwas über Daten. Der einzige Grund, warum wir in der Stichprobe keine Variabilität sehen, ist, dass die Stichprobe zu klein ist, um irgendeine Variation zu zeigen! Bei einer Stichprobengröße von N = 1 fühlt es sich so an, als ob die richtige Antwort einfach „keine Ahnung“ wäre.

Beachten Sie, dass Sie nicht die gleiche Intuition haben, wenn es um den Stichprobenmittelwert und den Mittelwert der Grundgesamtheit geht. Wenn man gezwungen ist, den Mittelwert der Grundgesamtheit zu schätzen, ist es nicht völlig unsinnig zu vermuten, dass der Mittelwert der Grundgesamtheit 20 beträgt. Sicherlich würden Sie sich bei dieser Schätzung nicht sehr sicher fühlen, weil Sie nur eine einzige Beobachtung haben, mit der Sie arbeiten können, aber es ist immer noch die beste Schätzung, die Sie abgeben können.

Erweitern wir dieses Beispiel noch ein wenig. Nehmen wir an, ich mache jetzt eine zweite Beobachtung. Mein Datensatz enthält nun N = 2 Beobachtungen zur cromulence von Schuhen, und die vollständige Stichprobe sieht nun wie folgt aus:

20, 22

Diesmal ist unsere Stichprobe gerade groß genug, um eine gewisse Variabilität beobachten zu können: Zwei Beobachtungen sind das absolute Minimum, das erforderlich ist, um eine Variabilität zu beobachten! Für unseren neuen Datensatz beträgt der Stichprobenmittelwert = 21, und die Standardabweichung der Stichprobe ist s = 1. Welche Anhaltspunkte haben wir über die Grundgesamtheit? Was den Mittelwert der Grundgesamtheit anbelangt, so ist der Stichprobenmittelwert die beste Schätzung, die wir machen können. Müssten wir raten, würden wir wahrscheinlich vermuten, dass der Mittelwert der Grundgesamtheit 21 beträgt. Wie sieht es mit der Standardabweichung aus? Dies ist ein wenig komplizierter. Die Standardabweichung der Stichprobe basiert nur auf zwei Beobachtungen, und wenn es Ihnen so geht wie mir, haben Sie wahrscheinlich das Gefühl, dass wir der Grundgesamtheit mit nur zwei Beobachtungen nicht genug Chancen gegeben haben, um ihre wahre Variabilität zu erkennen. Es geht nicht nur darum, dass wir vermuten, dass die Schätzung falsch ist, denn bei nur zwei Beobachtungen erwarten wir, dass sie bis zu einem gewissen Grad falsch ist. Die Sorge ist, dass der Fehler systematisch ist. Insbesondere vermuten wir, dass die Standardabweichung der Stichprobe wahrscheinlich kleiner ist als die Standardabweichung der Grundgesamtheit.

Diese Intuition fühlt sich richtig an, aber es wäre schön, wenn man das irgendwie beweisen könnte. Es gibt in der Tat mathematische Beweise, die diese Intuition bestätigen. Aber wenn man nicht das nötige mathematische Hintergrundwissen hat, sind sie nicht sehr hilfreich. Stattdessen werde ich die Ergebnisse einiger Experimente simulieren. Kehren wir also zu unseren IQ-Studien zurück. Nehmen wir an, der tatsächliche Durchschnitts-IQ der Population liegt bei 100 und die Standardabweichung bei 15. Zunächst führe ich ein Experiment durch, bei dem ich N = 2 IQ-Werte messe und die Standardabweichung der Stichprobe berechne. Wenn ich das immer wieder mache und ein Histogramm dieser Stichproben-Standardabweichungen zeichne, erhalte ich die Stichprobenverteilung der Standardabweichung. Ich habe diese Verteilung in Abb. 64 aufgezeichnet. Obwohl die tatsächliche Standardabweichung der Grundgesamtheit 15 beträgt, liegt der Durchschnitt der Standardabweichungen der Stichprobe nur bei 8,5. Dies ist ein ganz anderes Ergebnis als in Abb. 62 (Mitte), wo wir die Stichprobenverteilung des Mittelwerts aufgetragen haben, wobei der Mittelwert der Grundgesamtheit 100 und der Durchschnitt der Stichprobenmittelwerte ebenfalls 100 ist.

Stichprobenverteilung der Standardabweichung für ein Experiment mit „zwei IQ-Werten“

Abb. 64 Stichprobenverteilung der Stichprobenstandardabweichung für ein Experiment mit „zwei IQ-Werten“. Die wahre Standardabweichung der Grundgesamtheit beträgt 15 (gestrichelte Linie), aber wie Sie aus dem Histogramm ersehen können, wird die große Mehrheit der Experimente eine sehr viel kleinere Stichprobenstandardabweichung als diese ergeben. Im Durchschnitt würde dieses Experiment eine Stichprobenstandardabweichung von nur 8,5 ergeben, also deutlich unter dem wahren Wert! Mit anderen Worten: Die Stichprobenstandardabweichung ist eine verzerrte Schätzung der Standardabweichung in der Grundgesamtheit.

Nun wollen wir die Simulation erweitern. Anstatt uns auf die Situation zu beschränken, in der N = 2 ist, wiederholen wir die Übung für Stichprobengrößen von 1 bis 10. Wenn wir den durchschnittlichen Stichprobenmittelwert und die durchschnittliche Standardabweichung der Stichprobe als Funktion des Stichprobenumfangs darstellen, erhalten wir die in Abb. 65 gezeigten Ergebnisse. Auf der linken Seite habe ich den durchschnittlichen Stichprobenmittelwert und auf der rechten Seite die durchschnittliche Standardabweichung aufgetragen. Die beiden Diagramme sind recht unterschiedlich: im Durchschnitt ist der durchschnittliche Stichprobenmittelwert gleich dem Mittelwert der Grundgesamtheit. Es handelt sich um einen unverzerrten Schätzer, was im Wesentlichen der Grund dafür ist, dass der Stichprobenmittelwert der beste Schätzwert für den Mittelwert der Grundgesamtheit ist.[2] Die Darstellung auf der rechten Seite ist ganz anders: Im Durchschnitt ist die Standardabweichung der Stichprobe s kleiner als die Standardabweichung der Grundgesamtheit σ. Es handelt sich um einen verzerrten Schätzer. Mit anderen Worten, wenn wir eine „beste Schätzung“ \(\hat\sigma\) über den Wert der Standardabweichung der Grundgesamtheit σ vornehmen wollen, sollten wir sicherstellen, dass unsere Schätzung ein wenig größer ist als die Standardabweichung der Stichprobe s.

Stichprobenumfang: Mittelwert (unverzerrt) und Standardabweichung (verzerrt)

Abb. 65 Veranschaulichung der Tatsache, dass der Stichprobenmittelwert ein unverzerrter Schätzer des Mittelwerts der Grundgesamtheit ist (linke Seite), die Standardabweichung der Stichprobe jedoch ein verzerrter Schätzer der Standardabweichung der Grundgesamtheit ist (rechte Seite). Für die Abbildung habe ich 10.000 simulierte Datensätze mit jeweils 1 Beobachtung, 10.000 weitere mit 2 Beobachtungen und so weiter bis zu einem Stichprobenumfang von 10 erzeugt. Jeder Datensatz bestand aus gefälschten IQ-Daten, d. h. die Daten waren normalverteilt und hatten einen „wahren“ Populationsmittelwert von 100 und eine „wahre“ Populationsstandardabweichung von 15. Die Stichprobenmittelwerte liegen im Durchschnitt bei 100, unabhängig vom Stichprobenumfang (linke Seite). Die Standardabweichungen der Stichproben erweisen sich jedoch als systematisch zu klein (rechte Seite), besondere bei kleinen Stichprobenumfängen.

Die Lösung für diese systematische Verzerrung stellt sich als sehr einfach heraus. Sie funktioniert folgendermaßen. Bevor wir uns mit der Standardabweichung befassen, wollen wir uns die Varianz ansehen. Wenn Sie sich an Maße der Variabilität erinnern, ist die Stichprobenvarianz definiert als der Durchschnitt der quadrierten Abweichungen vom Stichprobenmittelwert. Das bedeutet:

\[s^2 = \frac{1}{N} \sum_{i=1}^N (X_i - \bar{X})^2\]

Die Stichprobenvarianz s² ist ein verzerrter Schätzer der Varianz der Grundgesamtheit σ². Es stellt sich jedoch heraus, dass wir nur eine winzige Änderung vornehmen müssen, um sie in einen unverzerrten Schätzer zu verwandeln. Wir müssen nur durch N - 1 statt durch N dividieren. Wenn wir das tun, erhalten wir die folgende Formel:

\[\hat\sigma^2 = \frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2\]

Dies ist ein unverzerrter Schätzer der Varianz der Grundgesamtheit σ. Außerdem beantwortet dies endlich die Frage, die wir in Maße der Variabilität gestellt haben. Warum hat uns jamovi ein leicht unterschiedliches Resultat für die Varianz ausgegeben? Das liegt daran, dass jamovi \(\hat\sigma^2\) berechnet und nicht s². Ähnlich verhält es sich mit der Standardabweichung. Wenn wir durch N - 1 statt durch N dividieren, ergibt sich eine Schätzung der Standardabweichung der Grundgesamtheit:

\[\hat\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (X_i - \bar{X})^2}\]

und wenn wir jamovi’s Funktion für die Standardabweichung verwenden, berechnet sie \(\hat\sigma\), nicht s.[3]

Ein letzter Punkt: In der Praxis neigen viele Leute dazu, \(\hat{\sigma}\) (d.h. die Formel, in der wir durch N - 1 dividieren) als die Stichprobenstandardabweichung zu bezeichnen. Technisch gesehen ist dies falsch. Die Standardabweichung der Stichprobe sollte gleich s sein (d. h. die Formel, bei der wir durch N dividieren). Dies ist nicht dasselbe, weder konzeptionell noch numerisch. Das eine ist eine Eigenschaft der Stichprobe, das andere ist ein geschätztes Merkmal der Grundgesamtheit. In fast allen Anwendungen im wirklichen Leben geht es jedoch um die Schätzung des Parameters für die Grundgesamtheit. Deshalb wird immer \(\hat\sigma\) statt s angegeben. Das ist natürlich die richtige Zahl. Es ist nur so, dass die Leute dazu neigen, sich bei der Terminologie etwas ungenau auszudrücken, weil „Stichprobenstandardabweichung“ kürzer ist als „geschätzte Standardabweichung in der Grundgesamtheit“. Das ist keine große Sache, und in der Praxis mache ich das Gleiche wie alle anderen auch. Dennoch halte ich es für wichtig, die beiden Konzepte voneinander zu trennen. Es ist nie eine gute Idee, „bekannte Eigenschaften Ihrer Stichprobe“ mit „Vermutungen über die Grundgesamtheit, aus der sie stammt“ zu verwechseln. In dem Moment, in dem man anfängt zu denken, dass s und \(\hat\sigma\) dasselbe sind, fängt man an, genau das zu tun.

Zum Abschluss dieses Abschnitts finden Sie noch einige Tabellen, die Ihnen helfen sollen, die Übersicht zu behalten.

Symbol

Was bedeutet das?

Wissen wir, was es ist?

s

Standardabweichung der Stichprobe

Ja, berechnet aus den Rohdaten

σ

Standardabweichung der Grundgesamtheit

Fast nie mit Sicherheit bekannt

\(\hat{\sigma}\)

Schätzung der Standardabweichung der Grundgesamtheit

Ja, aber nicht identisch mit der Standardabweichung der Stichprobe

s²

Stichprobenvarianz

Ja, berechnet aus den Rohdaten

σ²

Varianz der Grundgesamtheit

Fast nie mit Sicherheit bekannt

\(\hat{\sigma}^2\)

Schätzung der Varianz der Grundgesamtheit

Ja, aber nicht identisch mit der Stichprobenvarianz