Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Schätzen eines Konfidenzintervalls

Statistik bedeutet, dass man nie sagen muss, dass man sich sicher ist.

—Unbekannte Herkunft[1]

Bis zu diesem Punkt in diesem Kapitel habe ich die Grundlagen der Stichprobentheorie umrissen, auf die sich Statistiker stützen, um auf der Grundlage der Daten einer Stichprobe Schätzungen über Populationsparameter vorzunehmen. Wie diese Diskussion zeigt, ist einer der Gründe, warum wir die Stichprobentheorie brauchen, der, dass jeder Datensatz eine gewisse Unsicherheit mit sich bringt, so dass unsere Schätzungen nie vollkommen genau sein werden. Was in dieser Diskussion fehlt, ist der Versuch, den Grad der Unsicherheit, der mit unserer Schätzung verbunden ist, zu quantifizieren. Es reicht nicht aus, zu schätzen, dass, sagen wir, der durchschnittliche IQ von Psychologiestudenten 115 beträgt (ja, diese Zahl habe ich mir gerade ausgedacht). Wir wollen auch in der Lage sein, etwas zu sagen, das den Grad der Gewissheit ausdrückt, den wir bei unserer Schätzung haben. Es wäre zum Beispiel schön, wenn man sagen könnte, dass die Wahrscheinlichkeit, dass der wahre Mittelwert zwischen 109 und 121 liegt, 95 % beträgt. Die Bezeichnung dafür ist Konfidenzintervall für den Mittelwert.

Mit dem Wissen über Stichprobenverteilungen ist es eigentlich recht einfach, ein Konfidenzintervall für den Mittelwert zu berechnen. Und so funktioniert es. Nehmen wir an, der wahre Mittelwert der Population ist µ und die Standardabweichung ist σ. Ich habe gerade meine Studie mit N Teilnehmern abgeschlossen, und der mittlere IQ unter diesen Teilnehmern ist . Aus unserer Diskussion über den zentralen Grenzwertsatz wissen wir, dass die Stichprobenverteilung des Mittelwertes annähernd normal ist. Wir wissen aus unserer Diskussion über die Normalverteilung auch, dass eine Wahrscheinlichkeit von 95 % besteht, dass eine normalverteilte Größe innerhalb von etwa zwei Standardabweichungen um den wahren Mittelwert liegt.

Genauer gesagt lautet die korrektere Antwort, dass die Wahrscheinlichkeit, dass eine normalverteilte Größe innerhalb von 1,96 Standardabweichungen um den wahren Mittelwert liegt, 95 % beträgt. Erinnern Sie sich daran, dass die Standardabweichung der Stichprobenverteilung als Standardfehler bezeichnet wird, und der Standardfehler des Mittelwerts wird als SEM geschrieben. Wenn wir all diese Teile zusammenfügen, erfahren wir, dass der tatsächlich beobachtete Stichprobenmittelwert mit einer Wahrscheinlichkeit von 95 % innerhalb von 1,96 Standardabweichungen um den Mittelwert der Grundgesamtheit liegt.

Mathematisch lässt sich dies wie folgt ausdrücken:

µ – 1.96 × SEM ≤ ≤ µ + (1.96 × SEM)

wobei der SEM gleich \(\sigma / \sqrt{N}\) ist und wir zu 95 % sicher sein können, dass dieser Wert wahr ist. Das beantwortet jedoch nicht die Frage, an der wir eigentlich interessiert sind. Die obige Gleichung sagt uns, was wir in Bezug auf den Stichprobenmittelwert erwarten können, wenn wir wissen, wie der Populationsparameter lautet. Was wir wollen, ist, dass es umgekehrt funktioniert. Wir wollen wissen, was wir über die Parameter der Grundgesamtheit annehmen können, nachdem wir eine bestimmte Stichprobe beobachtet haben. Es ist jedoch nicht allzu schwierig, dies zu tun. Mit ein wenig Schulalgebra lässt sich unsere Gleichung auf raffinierte Weise wie folgt umschreiben:

− (1.96 × SEM) ≤ µ ≤ + (1.96 × SEM)

Das bedeutet, dass der Wertebereich mit einer Wahrscheinlichkeit von 95 % den Mittelwert der Grundgesamtheit µ enthält. Wir bezeichnen diesen Bereich als 95%-Konfidenzintervall, bezeichnet als CI95. Kurz gesagt, solange N hinreichend groß ist (groß genug, um zu glauben, dass die Stichprobenverteilung des Mittelwerts normal ist), können wir dies als unsere Formel für das 95%-Konfidenzintervall schreiben:

\[\mbox{CI}_{95} = \bar{X} \pm \left( 1.96 \times \frac{\sigma}{\sqrt{N}} \right)\]

Natürlich ist an der Zahl 1,96 nichts Besonderes. Sie ist lediglich der Multiplikator, den Sie verwenden müssen, wenn Sie ein 95%-Konfidenzintervall wünschen. Hätte ich ein Konfidenzintervall von 70 % haben wollen, würde ich 1,04 als magische Zahl verwenden und nicht 1,96.

Ein kleiner Fehler in der Formel

Wie üblich, habe ich nicht die ganze Wahrheit gesagt. Die Formel, die ich oben für das 95%-Konfidenzintervall angegeben habe, ist zwar ungefähr richtig, aber ich habe ein wichtiges Detail in der Diskussion übergangen. Beachten Sie, dass meine Formel die Verwendung des Standardfehlers des Mittelwerts, SEM, voraussetzt, der wiederum die Kenntnis der wahren Standardabweichung der Grundgesamtheit σ voraussetzt. In Schätzen von Populationsparametern habe ich jedoch die Tatsache betont, dass wir die wahren Populationsparameter nicht kennen. Da wir den wahren Wert von σ nicht kennen, müssen wir stattdessen die Schätzung der Standardabweichung der Grundgesamtheit \(\hat{\sigma}\) verwenden. Das ist recht einfach zu bewerkstelligen, hat aber zur Folge, dass wir die Perzentile der t-Verteilung anstelle der Normalverteilung verwenden müssen, um unsere magische Zahl zu berechnen, und die Antwort hängt von der Stichprobengröße ab. Wenn N sehr groß ist, erhalten wir so ziemlich denselben Wert, unabhängig davon, ob wir die t-Verteilung oder die Normalverteilung verwenden: 1.96. Aber wenn N klein ist, erhalten wir eine viel größere Zahl, wenn wir die t-Verteilung verwenden: 2,26.

Es ist nicht allzu mysteriös, was hier passiert. Größere Werte bedeuten, dass das Konfidenzintervall breiter ist, was darauf hindeutet, dass wir uns nicht sicher sind, wie der wahre Wert von µ tatsächlich aussieht. Wenn wir die t-Verteilung anstelle der Normalverteilung verwenden, erhalten wir größere Zahlen, was darauf hinweist, dass wir eine größere Unsicherheit haben. Und warum haben wir diese zusätzliche Unsicherheit? Nun, weil unsere Schätzung der Standardabweichung der Grundgesamtheit \(\hat\sigma\) falsch sein könnte! Wenn sie falsch ist, bedeutet das, dass wir etwas weniger sicher sind, wie unsere Stichprobenverteilung des Mittelwerts tatsächlich aussieht, und diese Unsicherheit spiegelt sich schließlich in einem breiteren Konfidenzintervall wider.

Interpretieren eines Konfidenzintervalls

Das Schwierigste an Konfidenzintervallen ist zu verstehen, was sie bedeuten. Wenn Menschen zum ersten Mal mit Konfidenzintervallen konfrontiert werden, sagen sie fast immer instinktiv: „Der wahre Mittelwert liegt mit einer Wahrscheinlichkeit von 95 % innerhalb des Konfidenzintervalls“. Das ist einfach und entspricht dem gesunden Menschenverstand, was es bedeutet, wenn ich sage, dass ich „zu 95 % sicher“ bin. Leider ist die Interpretation nicht ganz richtig. Die intuitive Definition stützt sich sehr stark auf Ihre eigenen persönlichen Überzeugungen über den Wert des Mittelwerts der Grundgesamtheit. Ich sage, dass ich zu 95 % sicher bin, weil das meine Überzeugungen sind. Im Alltag ist das völlig in Ordnung, aber wenn Sie sich an Was bedeutet Wahrscheinlichkeit? zurückerinnern, werden Sie feststellen, dass das Reden über persönliche Überzeugungen und Vertrauen eine Bayessche Idee ist. Konfidenzintervalle sind jedoch keine Bayesschen Werkzeuge. Wie alles andere in diesem Kapitel sind Konfidenzintervalle frequentistische Werkzeuge, und wenn Sie frequentistische Methoden verwenden, ist es nicht angebracht, dafür eine Bayessche Interpretation zu verwenden. Wenn Sie frequentistische Methoden verwenden, müssen Sie auch frequentistische Interpretationen verwenden!

Aber wenn das nicht die richtige Antwort ist, was ist sie dann? Erinnern Sie sich daran, was wir über die frequentistische Wahrscheinlichkeitsrechnung gesagt haben. Die einzige Möglichkeit, „Wahrscheinlichkeitsaussagen“ zu machen, besteht darin, über eine Abfolge von Ereignissen zu sprechen und die Häufigkeiten verschiedener Arten von Ereignissen zu zählen. Aus dieser Perspektive muss die Interpretation eines 95%-Konfidenzintervalls etwas mit Replikation zu tun haben. Wenn wir das Experiment immer wieder wiederholen und für jede Wiederholung ein 95%-Konfidenzintervall berechnen würden, dann würden 95 % dieser Intervalle den wahren Mittelwert enthalten. Allgemeiner ausgedrückt: 95 % aller Konfidenzintervalle, die mit diesem Verfahren berechnet werden, sollten den wahren Mittelwert der Population enthalten. Diese Idee wird in Abb. 66 veranschaulicht, wo 50 Konfidenzintervalle für ein Experiment zur Messung von 10 IQ-Werten (obere Abbildung) und weitere 50 Konfidenzintervalle für ein Experiment zur Messung von 25 IQ-Werten (untere Abbildung) dargestellt sind. Zufälligerweise stellte sich heraus, dass von den 100 simulierten Replikationen genau 95 den wahren Mittelwert enthielten.

Konfidenzintervalle für IQ-Stichproben mit N=10 (oben) und N=25 (unten)

Abb. 66 95%-Konfidenzintervalle. Die obere Abbildung zeigt 50 simulierte Wiederholungen eines Experiments, bei dem wir den IQ von 10 Personen messen. Der Punkt markiert die Position des Stichprobenmittelwerts und die Linie zeigt das 95%-Konfidenzintervall. Insgesamt enthalten 47 der 50 Konfidenzintervalle den wahren Mittelwert (d. h. 100), die drei mit Sternchen markierten Intervalle jedoch nicht. Die untere Abbildung zeigt eine ähnliche Simulation, aber dieses Mal simulieren wir Wiederholungen eines Experiments, bei dem der IQ von 25 Personen gemessen wird.

Der entscheidende Unterschied besteht darin, dass die Bayessche Behauptung eine Wahrscheinlichkeitsaussage über den Mittelwert der Population macht (d. h., sie bezieht sich auf unsere Unsicherheit über den Mittelwert der Population). Dies ist nach der frequentistischen Interpretation der Wahrscheinlichkeit nicht zulässig ist, da man eine Population nicht „replizieren“ kann! Bei der frequentistischen Behauptung steht der Mittelwert der Grundgesamtheit fest und es können keine probabilistischen Aussagen darüber gemacht werden. Konfidenzintervalle lassen sich jedoch für jede Wiederholung eines Experiments berechnen. Daher darf ein Frequentist über die Wahrscheinlichkeit sprechen, dass das Konfidenzintervall (eine Zufallsvariable) den wahren Mittelwert enthält, aber er darf nicht über die Wahrscheinlichkeit sprechen, dass der wahre Mittelwert der Population (kein wiederholbares Ereignis) in das Konfidenzintervall fällt.

Ich weiß, dass dies ein wenig pedantisch erscheint, aber es ist wichtig. Es ist wichtig, weil der Unterschied in der Interpretation zu einem Unterschied in der Mathematik führt. Es gibt eine Bayessche Alternative zu Konfidenzintervallen, die als glaubwürdige Intervalle (credible intervals) bezeichnet wird. In den meisten Situationen sind glaubwürdige Intervalle den Konfidenzintervallen recht ähnlich, aber in anderen Fällen unterscheiden sie sich drastisch. Wie versprochen, werde ich im Kapitel Bayessche Statistik mehr über die Bayessche Perspektive erzählen.

Berechnung von Konfidenzintervallen in jamovi

jamovi bietet eine einfache Möglichkeit zur Berechnung von Konfidenzintervallen für den Mittelwert als Teil der Funktionalität von Descriptives. Setzen Sie dort einfach die Checkbox Confidence interval for Mean.

95%-Konfidenzintervalle sind der de-facto-Standard in der Psychologie. Wenn ich zum Beispiel den Datensatz IQsim lade (unsere simulierten Stichprobendaten mit N = 10.000) und Confidence interval for Mean unter Descriptives setze, erhalten wir einen mittleren IQ-Wert von 99,683 mit einem 95%-Konfidenzintervall von 99,391 bis 99,975.

Wenn es darum geht, Konfidenzintervalle für den Mittelwert in jamovi darzustellen, ist dies (noch) nicht als Teil der Descriptives-Optionen verfügbar. Wenn wir uns jedoch mit spezifischen statistischen Tests beschäftigen, zum Beispiel in Kapitel Vergleich mehrerer Mittelwerte (einfaktorielle ANOVA), werden wir sehen, dass wir Konfidenzintervalle als Teil der Datenanalyse darstellen können. Das ist ziemlich cool, also werden wir Ihnen später zeigen, wie man das macht.