Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Die Normalverteilung

Die Binomialverteilung ist zwar konzeptionell am einfachsten zu verstehen, sie ist aber nicht die wichtigste Verteilung. Diese Ehre kommt der Normalverteilung zu, die auch als „Glockenkurve“ oder „Gaußverteilung“ bezeichnet wird. Eine Normalverteilung wird durch zwei Parameter beschrieben: den Mittelwert der Verteilung µ und die Standardabweichung der Verteilung σ.

Die Notation, die wir verwenden, um zu sagen, dass eine Variable X normalverteilt ist, lautet wie folgt:

X ~ Normal(µ, σ)

Das ist natürlich nur eine Notation. Sie sagt uns nichts Interessantes über die Normalverteilung selbst. Wie bei der Binomialverteilung habe ich die Formel für die Normalverteilung in dieses Buch aufgenommen, weil ich sie für so wichtig halte, dass jeder, der Statistik lernt, sie sich zumindest einmal gesehen haben sollte. Da es sich aber um einen Einführungstext handelt, möchte ich mich nicht zu sehr darauf konzentrieren. Deshalb habe ich sie in Tab. 7 versteckt.

Normalverteilung mit dem Mittelwert μ = 0 und der Standardabweichung σ = 1

Abb. 47 Die Normalverteilung hat einen Mittelwert μ = 0 und eine Standardabweichung σ = 1. Die x-Achse entspricht dem Wert einer Variablen, und die y-Achse sagt uns etwas darüber, wie wahrscheinlich es ist, dass wir diesen Wert beobachten. Beachten Sie jedoch, dass die y-Achse mit „Probability Density“ („Wahrscheinlichkeitsdichte“) und nicht mit „Probability“ („Wahrscheinlichkeit“) beschriftet ist. Es gibt eine subtile und etwas frustrierende Eigenschaft kontinuierlicher Verteilungen, die dazu führen, dass die y-Achse sich etwas seltsam verhält: Die Höhe der Kurve ist hier nicht wirklich die Wahrscheinlichkeit, einen bestimmten x-Wert zu beobachten. Andererseits ist es richtig, dass die Höhe der Kurve angibt, welche x-Werte wahrscheinlicher sind (die höheren!; siehe Wahrscheinlichkeitsdichte für alle lästigen Details).

Anstatt sich auf die Mathematik zu konzentrieren, sollten wir versuchen, ein Gefühl dafür zu bekommen, was es bedeutet, wenn eine Variable normalverteilt ist. Zu diesem Zweck sehen Sie sich Abb. 47 an, welche eine Normalverteilung mit dem Mittelwert µ = 0 und der Standardabweichung σ = 1 abbildet. Sie sehen, woher der Name „Glockenkurve“ kommt; sie sieht ein wenig wie eine Glocke aus. Beachten Sie, dass im Gegensatz zu den Grafiken, die ich zur Veranschaulichung der Binomialverteilung gezeichnet habe, das Bild der Normalverteilung in Abb. 47 eine glatte Kurve anstelle von „histogrammartigen“ Balken zeigt. Dies ist keine willkürliche Wahl, denn die Normalverteilung ist kontinuierlich, während die Binomialverteilung diskret ist. Im Würfel-Beispiel aus dem letzten Abschnitt war es zum Beispiel möglich, 3 oder 4 Schädel zu erhalten, aber unmöglich, 3,9 Schädel zu erhalten. Die Zahlen, die ich im vorherigen Abschnitt gezeichnet habe, spiegeln diese Tatsache wider. In Abb. 45 gibt es zum Beispiel einen Balken bei X = 3 und einen weiteren bei X = 4, aber dazwischen gibt es nichts. Für kontinuierliche Mengen gilt diese Einschränkung nicht. Nehmen wir zum Beispiel an, wir sprechen über das Wetter. Die Temperatur an einem angenehmen Frühlingstag könnte 23 Grad, 24 Grad, 23,9 Grad oder irgendetwas dazwischen betragen, da die Temperatur eine kontinuierliche Variable continuous ist. Eine Normalverteilung könnte also durchaus geeignet sein, um die Frühlingstemperaturen zu beschreiben.[1]

Normalverteilung: σ = 1 und µ = 4 (durchgezogene Linie) oder µ = 7 (gestrichelte Linie)

Abb. 48 Illustration, was passiert, wenn man den Mittelwert einer Normalverteilung ändert. Die durchgezogene Linie stellt eine Normalverteilung mit einem Mittelwert von μ = 4 dar. Die gestrichelte Linie zeigt eine Normalverteilung mit einem Mittelwert von μ = 7. In beiden Fällen beträgt die Standardabweichung σ = 1. Es überrascht nicht, dass die beiden Verteilungen die gleiche Form haben, aber die gestrichelte Linie ist nach rechts verschoben.

Lassen Sie uns sehen, ob wir ein Gefühl dafür bekommen, wie die Normalverteilung funktioniert. Schauen wir uns zunächst an, was passiert, wenn wir mit den Parametern der Verteilung herumspielen. Zu diesem Zweck stellt Abb. 48 Normalverteilungen dar, die unterschiedliche Mittelwerte, aber die gleiche Standardabweichung haben. Wie zu erwarten, haben alle diese Verteilungen die gleiche „Breite“. Der einzige Unterschied zwischen ihnen ist, dass sie nach links oder rechts verschoben wurden. In jeder anderen Hinsicht sind sie identisch. Erhöht man dagegen die Standardabweichung, während der Mittelwert sich nicht verändert, bleibt der Scheitelpunkt der Verteilung an der gleichen Stelle, aber die Verteilung wird breiter, wie Sie in Abb. 49 sehen können.

Normalverteilung: µ = 5 und σ = 1 (durchgezogene Linie) oder σ = 2 (gestrichelte Linie)

Abb. 49 Illustration, was passiert, wenn man die Standardabweichung einer Normalverteilung ändert. Beide in dieser Abbildung dargestellten Verteilungen haben einen Mittelwert von μ = 5, aber sie haben unterschiedliche Standardabweichungen. Die durchgezogene Linie stellt eine Verteilung mit einer Standardabweichung σ = 1 dar, die gestrichelte Linie eine Verteilung mit einer Standardabweichung σ = 2. Folglich sind beide Verteilungen auf demselben Punkt „zentriert“, aber die gestrichelte Linie ist breiter als die durchgezogene Linie.

Beachten Sie jedoch, dass die Höhe der Spitze schrumpft, wenn wir die Verteilung verbreitern. Genauso wie die Höhen der Balken, die wir zum Zeichnen einer diskreten Binomialverteilung verwendet haben, die Summe zu 1 ergeben müssen, muss die Gesamtfläche unter der Kurve für die Normalverteilung gleich 1 sein. Bevor ich fortfahre, möchte ich auf eine wichtige Eigenschaft der Normalverteilung hinweisen. Unabhängig davon, wie hoch der tatsächliche Mittelwert und die Standardabweichung sind, liegt 68,3 % der Fläche innerhalb einer Standardabweichung um den Mittelwert. In ähnlicher Weise liegt 95,4 % der Verteilung innerhalb von 2 Standardabweichungen um den Mittelwert und 99,7 % der Verteilung innerhalb von 3 Standardabweichungen. Diese Idee wird in Abb. 50 veranschaulicht.

Normalverteilung: Fläche unter der Kurve für 1 und 2 SD (Standardabw.)

Abb. 50 Die Fläche unter der Kurve gibt die Wahrscheinlichkeit an, dass eine Beobachtung in einen bestimmten Bereich fällt. Die durchgezogenen Linien stellen Normalverteilungen mit Mittelwert μ = 0 und Standardabweichung σ = 1 dar. Die schattierten Flächen zeigen die „Flächen unter der Kurve“ für zwei wichtige Fälle. Links sehen wir, dass die Wahrscheinlichkeit, dass eine Beobachtung innerhalb einer Standardabweichung um den Mittelwert liegt, 68,3 % beträgt. Rechts sehen wir, dass die Wahrscheinlichkeit, dass eine Beobachtung innerhalb von zwei Standardabweichungen um den Mittelwert liegt, 95,4 % beträgt.

Fläche unter der Kurve für 1 SD direkt neben dem Mittelwert sowie am Ausläufer der Verteilung

Abb. 51 Zwei weitere Beispiele für die Idee der „Fläche unter der Kurve“. Die Wahrscheinlichkeit, dass eine Beobachtung eine Standardabweichung unter dem Mittelwert oder darunter liegt, beträgt 15,9 % (links), und die Wahrscheinlichkeit, dass die Beobachtung irgendwo zwischen einer Standardabweichung unter dem Mittelwert und dem Mittelwert liegt, beträgt 34,1 % (rechts). Wenn Sie diese beiden Zahlen zusammenzählen, erhalten Sie 15,9 % + 34.1 % = 50 %. Bei normalverteilten Daten besteht eine 50 % Wahrscheinlichkeit, dass eine Beobachtung unter dem Mittelwert liegt. Das bedeutet natürlich auch, dass die Wahrscheinlichkeit, dass sie über dem Mittelwert liegt, ebenfalls 50 % beträgt.

Wahrscheinlichkeitsdichte

Es gibt etwas, das ich während meiner gesamten Diskussion über die Normalverteilung zu verbergen versucht habe. Es ist etwas, das selbst einige einführende Lehrbücher völlig auslassen und sie haben vielleicht Recht damit. Diese „Sache“, die ich verheimliche, ist selbst nach den zugegebenermaßen verzerrten Maßstäben, die in der Statistik gelten, seltsam und kontraintuitiv. Glücklicherweise ist es nichts, was man auf einer tiefen Ebene verstehen muss, um Statistiken zu erstellen. Vielmehr ist es eher etwas, was erst später wichtig wird, wenn man über die Grundlagen hinausgeht. Machen Sie sich also keine allzu großen Sorgen, wenn es nicht ganz verständlich ist, aber versuchen Sie, das Wesentliche zu verstehen.

Während meiner Diskussion über die Normalverteilung gab es ein oder zwei Dinge, die vielleicht keinen Sinn ergaben. Vielleicht ist Ihnen aufgefallen, dass die y-Achse in diesen Abbildungen mit „Wahrscheinlichkeitsdichte“ und nicht mit „Dichte“ beschriftet ist. Und vielleicht ist Ihnen aufgefallen, dass ich p(X) anstelle von P(X) verwendet habe, als ich die Formel für die Normalverteilung angegeben habe.

Wie sich herausstellt, ist das, was hier dargestellt wird, nicht wirklich eine Wahrscheinlichkeit, sondern etwas anderes. Um zu verstehen, was dieses Etwas ist, muss man ein wenig Zeit damit verbringen, darüber nachzudenken, was es wirklich bedeutet zu sagen, dass X eine kontinuierliche Variable continuous ist. Nehmen wir an, wir sprechen über die Außentemperatur. Das Thermometer sagt mir, dass es 23 Grad sind, aber ich weiß, dass das nicht wirklich stimmt. Es ist nicht genau 23 Grad. Vielleicht sind es 23,1 Grad. Aber ich weiß, dass das auch nicht wirklich stimmt, denn es könnten auch 23,09 Grad sein. Aber ich weiß, dass… Sie verstehen schon. Das Tückische an wirklich kontinuierlichen Größen ist, dass man ihre exakte Größe nie genau kennt.

Überlegen Sie nun, was dies bedeutet, wenn wir über Wahrscheinlichkeiten sprechen. Nehmen wir an, dass die morgige Höchsttemperatur aus einer Normalverteilung mit dem Mittelwert 23 und der Standardabweichung 1 abgeleitet ist (gezogen wurde). Wie groß ist die Wahrscheinlichkeit, dass die Temperatur genau 23 Grad betragen wird? Die Antwort ist „Null“, oder möglicherweise „eine Zahl, die so nahe bei Null liegt, dass sie genauso gut Null sein könnte“. Warum ist das so? Es ist, als würde man versuchen, einen Dartpfeil auf eine unendlich kleine Dartscheibe zu werfen. Egal wie gut Sie zielen, Sie werden nie genau treffen. Im wirklichen Leben werden Sie nie einen Wert von genau 23 erhalten. Es wird immer etwas wie 23,1 oder 22,99998 oder so ähnlich sein. Mit anderen Worten: Es ist völlig sinnlos, über die Wahrscheinlichkeit zu sprechen, dass die Temperatur genau 23 Grad beträgt. Wenn ich Ihnen aber in der Alltagssprache sage, dass es draußen 23 Grad warm ist, und es sind 22,9998 Grad, dann würden Sie mich wahrscheinlich nicht als Lügner bezeichnen. Denn in der Alltagssprache bedeutet „23 Grad“ normalerweise so viel wie „irgendwo zwischen 22,5 und 23,5 Grad“. Und obwohl es nicht sehr sinnvoll ist, nach der Wahrscheinlichkeit zu fragen, dass die Temperatur genau 23 Grad beträgt, scheint es doch sinnvoll zu sein, nach der Wahrscheinlichkeit zu fragen, dass die Temperatur zwischen 22,5 und 23,5 oder zwischen 20 und 30 oder einem anderen Temperaturbereich liegt.

Diese Diskussion soll deutlich machen, dass es bei kontinuierlichen Verteilungen nicht sinnvoll ist, über die Wahrscheinlichkeit eines bestimmten Wertes zu sprechen. Worüber wir jedoch sprechen können, ist die Wahrscheinlichkeit, dass der Wert innerhalb eines bestimmten Wertebereichs liegt. Um die mit einem bestimmten Bereich verbundene Wahrscheinlichkeit zu ermitteln, muss man die „Fläche unter der Kurve“ berechnen. Wir haben dieses Konzept bereits gesehen, in Abb. 50 stellen die schattierten Bereiche echte Wahrscheinlichkeiten dar (z.B. zeigt das linke Feld von Abb. 50 die Wahrscheinlichkeit, einen Wert zu beobachten, der innerhalb einer Standardabweichung vom Mittelwert liegt).

Damit ist ein Teil der Geschichte erklärt. Ich habe ein wenig erklärt, wie kontinuierliche Wahrscheinlichkeitsverteilungen zu interpretieren sind (d. h. die Fläche unter der Kurve ist das Wichtigste). Aber was bedeutet eigentlich die Formel für p(x), die ich vorhin beschrieben habe? Offensichtlich beschreibt p(x) keine Wahrscheinlichkeit, aber was ist es dann? Der Name für diese Größe p(x) ist Wahrscheinlichkeitsdichte. In Bezug auf die Diagramme, die wir gezeichnet haben, entspricht sie der Höhe der Kurve. Die Dichten selbst sind an und für sich nicht aussagekräftig, aber sie werden „manipuliert“, um sicherzustellen, dass die Fläche unter der Kurve immer als echte Wahrscheinlichkeiten interpretiert werden kann. Um ehrlich zu sein, ist das alles, was Sie im Moment wissen müssen.[2]