Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Überprüfen der Normalverteilung in einer Stichprobe

Bei allen Tests, die wir bisher in diesem Kapitel besprochen haben, wurde angenommen, dass die Daten normalverteilt sind. Diese Annahme ist oft recht vernünftig, denn der zentrale Grenzwertsatz stellt in der Regel sicher, dass viele reale Größen normalverteilt sind. Jedes Mal, wenn Sie vermuten, dass Ihre Variable in Wirklichkeit ein Durchschnitt aus vielen verschiedenen Dingen ist, ist die Wahrscheinlichkeit ziemlich groß, dass sie normalverteilt ist oder zumindest nahe genug an der Normalverteilung liegt, so dass Sie t-Tests verwenden können. Im Leben gibt es jedoch keine Garantien, und außerdem gibt es viele Möglichkeiten, wie man zu Variablen gelangen kann, die in hohem Maße nicht normalverteilt sind. Wenn Sie zum Beispiel glauben, dass Ihre Variable das Minimum von vielen verschiedenen Größen ist, ist die Wahrscheinlichkeit groß, dass die Daten am Ende ziemlich verzerrt sind. In der Psychologie sind die Reaktionszeit-Daten (RT) ein gutes Beispiel dafür. Wenn man davon ausgeht, dass es viele Dinge gibt, die eine Reaktion eines menschlichen Teilnehmers auslösen können, dann wird die tatsächliche Reaktion beim ersten Auftreten eines dieser auslösenden Ereignisse erfolgen.[1] Dies bedeutet, dass RT-Daten systematisch nicht normalverteilt sind. Wenn also alle Tests das Vorliegen einer Normalverteilung voraussetzen und diese meist, aber nicht immer (zumindest annähernd) von realen Daten erfüllt wird, wie können wir dann die Normalverteilung einer Stichprobe überprüfen? In diesem Abschnitt stelle ich zwei Methoden vor: Q-Q-Diagramme und den Shapiro-Wilk-Test.

Q-Q-Diagramme

Histogramm und Q-Q-Diagramm für normalverteilte Daten

Abb. 101 Histogramm (links) und QQ-Diagramm (rechts) für die Spalte Normal im Datensatz distributions, einer normalverteilten Stichprobe mit 200 Beobachtungen. Die mit diesen Daten verbundene Shapiro-Wilk-Statistik beträgt W = 0,992, was bedeutet, dass keine signifikanten Abweichungen von der Normalität festgestellt wurden (p = 0,361).

Histogramm und Q-Q-Diagramm für schiefe und leptokurtische Daten (d.h., Daten mit deutlichen Ausläufern)

Abb. 102 Die oberste Zeile zeigt ein Histogramm (links oben) und ein QQ-Diagramm (rechts oben) für 200 Beobachtungen aus der Spalte Skewed aus dem Datensatz distributions. Die Schiefe der Daten beträgt hier 1,543 und spiegelt sich in einem QQ-Plot wider, der sich nach oben wölbt und dem die unteren Werte innerhalb der Standardized Residuals fehlen. Hiermit verbunden ist eine Shapiro-Wilk-Statistik von W = 0,732, was eine signifikante Abweichung von der Normalität widerspiegelt (p < 0,001). In der unteren Zeile finden sich die gleichen Diagramme für die 200 Beobachtungen aus der Spalte Heavy Tailed aus dem Datensatz distributions. In diesem Fall führen die starken Schwänze in den Daten zu einer hohen Kurtosis (8,225) und bewirken, dass das QQ-Diagramm in der Mitte abflacht und auf beiden Seiten stark abknickt. Die resultierende Shapiro-Wilk-Statistik ist W = 0,765, was ebenfalls eine signifikante Abweichung von der Normalität widerspiegelt (p < 0,001).

Eine Möglichkeit zu prüfen, ob eine Stichprobe gegen die Annahme der Normalverteilung verstößt, ist das Erstellen eines „Q-Q-Diagramm“ (Quantil-Quantil-Diagramm). Auf diese Weise können Sie visuell überprüfen, ob Sie systematische Verletzungen der Normalverteilungsannahme feststellen können. In einem Q-Q-Diagramm wird jede Beobachtung als ein einzelner Punkt dargestellt. Die x-Koordinate ist das theoretische Quantil, in das die Beobachtung fallen sollte, wenn die Daten normal verteilt wären (mit Mittelwert und Varianz, die aus der Stichprobe geschätzt werden), und die y-Koordinate ist das tatsächliche Quantil der Daten innerhalb der Stichprobe. Wenn die Daten normalverteilt sind, sollten die Punkte eine gerade Linie bilden. Sehen wir uns zum Beispiel an, was passiert, wenn wir Daten durch Stichproben aus einer Normalverteilung erzeugen und dann ein Q-Q-Diagramm zeichnen. Die Ergebnisse sind in Abb. 101 dargestellt. Wie Sie sehen können, bilden diese Daten eine ziemlich gerade Linie; das ist keine Überraschung, wenn man bedenkt, dass wir sie aus einer Normalverteilung gezogen haben! Sehen Sie sich im Gegensatz dazu die beiden Datensätze in Abb. 102 an. Der obere Teil zeigt das Histogramm und ein Q-Q-Diagramm für einen Datensatz, der stark schief verteilt ist: Das Q-Q-Diagramm ist nach oben gekrümmt. Der untere Teil zeigen die gleichen Diagramme für einen Datensatz mit starken Ausläufern (d. h. mit hoher Kurtosis): In diesem Fall flacht das Q-Q-Diagramm in der Mitte ab und weist an beiden Enden eine scharfe Kurve auf.

Shapiro-Wilk-Test

Q-Q-Diagramme bieten eine gute Möglichkeit, die Normalverteilung Ihrer Daten informell zu überprüfen, aber manchmal möchten Sie etwas Formaleres tun, und dann ist der Shapiro-Wilk-Test (Shapiro & Wilk, 1965) wahrscheinlich das, wonach Sie suchen.[2] Wie zu erwarten, ist die zu prüfende Nullhypothese, dass eine Menge von N Beobachtungen normalverteilt ist.

Die vom Shapiro-Wilk-Test berechnete Teststatistik wird üblicherweise als W bezeichnet und wie folgt berechnet. Zunächst sortieren wir die Beobachtungen in der Reihenfolge der zunehmenden Größe und lassen X1 den kleinsten Wert in der Stichprobe sein, X2 den zweitkleinsten und so weiter. Dann ist der Wert von W gegeben durch

\[W = \frac{ \left( \sum_{i = 1}^N a_i X_i \right)^2 }{ \sum_{i = 1}^N (X_i - \bar{X})^2}\]

wobei der Mittelwert der Beobachtungen ist, und die ai-Werte ein einleitender Text sind.

Da es etwas schwierig ist, die Mathematik hinter der W-Statistik zu erklären, ist es besser, eine grobe Beschreibung ihres Verhaltens zu geben. Im Gegensatz zu den meisten … unverständlich … etwas Kompliziertes, das den Rahmen der Teststatistiken, denen wir in diesem Buch begegnen werden, ein wenig sprengt, sind es tatsächlich kleine Werte von W, die eine Abweichung von der Normalverteilung anzeigen. Die W-Statistik hat einen Maximalwert von 1, der auftritt, wenn die Daten „vollkommen normalverteilt“ erscheinen. Je kleiner der Wert von W ist, desto weniger normalverteilt sind die Daten. Die Stichprobenverteilung für W, gehört nicht zu den Standardverteilungen, die ich in Kapitel Einführung in die Wahrscheinlichkeitsrechnung besprochen habe. Mit ihr zu arbeiten ist eher mühsam, und sie wird von der Stichprobengröße N beeinflusst. Um Ihnen ein Gefühl dafür zu vermitteln, wie diese Stichprobenverteilungen aussehen, habe ich drei davon in Abb. 103 aufgezeichnet. Beachten Sie, dass die Stichprobenverteilung mit zunehmender Größe der Stichprobe in der Nähe von W = 1 sehr stark verklumpt, so dass W bei größeren Stichproben nicht sehr viel kleiner als 1 sein muss, damit der Test signifikant wird.

Stichprobenverteilung der Shapiro-Wilk-W-Statistik

Abb. 103 Stichprobenverteilung der Shapiro-Wilk-Statistik W, unter der Nullhypothese, dass die Daten normalverteilt sind, für Stichproben der Größe 10, 20 und 50. Beachten Sie, dass kleine Werte von W eine Abweichung von der Normalverteilung anzeigen.

Um die Shapiro-Wilk-Statistik innerhalb eines t-Tests in jamovi zu erhalten, aktivieren Sie die Option für Normality unter Assumptions. Bei den zufällig ausgewählten Daten (N = 100), die wir für das Q-Q-Diagramm verwendet haben, war der Wert für die Shapiro-Wilk-Normalverteilungsteststatistik W = 0,99 und der resultierende p-Wert war 0,69. Es überrascht also nicht, dass wir keine Hinweise darauf haben, dass diese Daten von der Normalverteilung abweichen. Wenn Sie die Ergebnisse eines Shapiro-Wilk-Tests angeben, sollten Sie (wie üblich) darauf achten, dass Sie die Teststatistik W und den p-Wert angeben, obwohl es angesichts der Tatsache, dass die Stichprobenverteilung so stark von N abhängt, vernünftig wäre, außerdem auch N anzugeben.

Ein Beispiel

In der Zwischenzeit lohnt es sich wahrscheinlich, Ihnen ein Beispiel dafür zu zeigen, was mit dem Q-Q-Diagramm und dem Shapiro-Wilk-Test passiert, wenn sich die Daten als nicht normalverteilt erweisen. Betrachten wir dazu die Verteilung unserer AFL-Gewinnspannen-Variable (afl.margins aus dem aflsmall_margins-Datensatz), die, wenn Sie sich an das Kapitel über Deskriptive Statistik erinnern, überhaupt nicht so aussahen, als würden sie aus einer Normalverteilung stammen. Hier ist, was mit dem Q-Q-Diagramm passiert:

Q-Q-Diagramm für die (schief verteilten) Daten in der Variable ``afl.margins`` aus dem Datensatz |aflsmall_margins|

Abb. 104 Q-Q-Diagramm für die (schief verteilten) Daten in der Variable afl.margins aus dem Datensatz aflsmall_margins

Und wenn wir den Shapiro-Wilk-Test für die Variable afl.margins durchführen, erhalten wir einen Wert für die Shapiro-Wilk-Normalverteilungsteststatistik von W = 0,94 und einen p-Wert = 9,481e-07. Eindeutig eine signifikante Abweichung von der Normalverteilung!