Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Wie eine ANOVA funktioniert

Um diese Frage mit unserem clinicaltrial-Datensatz zu beantworten, werden wir eine einfaktorielle ANOVA (one-way ANOVA) durchführen. Ich beginne damit, Ihnen zu zeigen, wie man es Schritt-für-Schritt macht, indem ich das statistische Werkzeug von Grund auf erkläre und Ihnen zeige, wie Sie eine ANOVA rechnen könnten, ohne Zugang zu den coolen eingebauten ANOVA-Funktionen in jamovi hätten. Ich hoffe, dass Sie sorgfältig lesen und ein- oder zweimal versuchen, es auf schrittweise zu machen, um sicherzustellen, dass Sie wirklich verstehen, wie ANOVA funktioniert. Sobald Sie das Konzept verstanden haben, brauchen Sie es nie wieder auf diese Weise zu machen.

Der Versuchsplan, den ich im vorigen Abschnitt beschrieben habe, legt nahe, dass wir daran interessiert sind, die durchschnittliche Stimmungsänderung für die drei verschiedenen Medikamente zu vergleichen. In diesem Sinne handelt es sich um eine Analyse ähnlich dem t-Test (chapter Vergleich zweier Mittelwerte) aber mit mehr als zwei Gruppen. Wenn wir den Populationsmittelwert für die durch das Placebo hervorgerufene Stimmungsänderung als µP bezeichnen und µA und µJ als die entsprechenden Mittelwerte für unsere beiden Medikamente, Anxifree und Joyzepam, bezeichnen, dann ist die (etwas pessimistische) Nullhypothese, die wir testen wollen, dass alle drei Populationsmittelwerte identisch sind. Das heißt, dass keines der beiden Medikamente wirksamer ist als ein Placebo. Wir können diese Nullhypothese wie folgt formulieren:

H0: in der Population gilt, dass µP = µA = µJ

Folglich lautet unsere Alternativhypothese, dass sich mindestens eine der drei verschiedenen Behandlungen von den anderen unterscheidet. Es ist etwas schwierig, dies mathematisch zu formulieren, da es (wie wir noch besprechen werden) eine ganze Reihe verschiedener Möglichkeiten gibt, wie die Nullhypothese falsch sein kann. Daher schreiben wir die Alternativhypothese zunächst einfach so:

H1: in der Population gilt NICHT, dass µP = µA = µJ

Diese Nullhypothese ist viel schwieriger zu testen als alle anderen, die wir bisher gesehen haben. Wie machen wir das also? Eine vorsichtige Vermutung wäre, „eine ANOVA durchzuführen“, da dies der Titel des Kapitels ist. Jedoch ist es nicht besonders klar, warum eine „Varianz-Analyse“ („analysis of variances“) uns helfen soll, etwas Nützliches über Mittelwerte (means) zu erfahren. In der Tat ist dies eine der größten konzeptionellen Schwierigkeiten, die Menschen haben, wenn sie zum ersten Mal mit der ANOVA in Berührung kommen. Um zu sehen, wie das funktioniert, halte ich es für sehr hilfreich, zunächst über Varianzen zu sprechen. Ich werde nämlich zunächst einige mathematische Spiele mit der Formel zum Berechnen der Varianz machen. Das heißt, wir beginnen damit, etwas mit den Varianzen zu spielen und es wird sich herausstellen, dass wir so ein nützliches Werkzeug für das Untersuchen von Mittelwertsunterschieden erhalten.

Zwei Formeln für die Varianz von Y

Beginnen wir mit der Einführung der Notation. Wir verwenden G, um die Gesamtanzahl der Gruppen zu bezeichnen. Für unseren Datensatz gibt es drei Medikamente, also G = 3 Gruppen. Als Nächstes verwenden wir N für die Gesamtgröße der Stichprobe; in unserem Datensatz gibt es insgesamt N = 18 Personen. Analog dazu bezeichnen wir mit Nk die Anzahl der Personen in der k-ten Gruppe. In unserem clinicaltrial-Datensatz beträgt der Stichprobenumfang Nk = 6` für alle drei Gruppen.[1] Schließlich verwenden wir Y, um die Ergebnisvariable zu bezeichnen. In unserem Fall bezieht sich Y auf die Veränderung der Stimmung. Genauer gesagt, verwenden wir Yik für die Stimmungsänderung, die das i-te Mitglied der k-ten Gruppe erlebt. In ähnlicher Weise verwenden wir Ȳ für die durchschnittliche Stimmungsänderung aller 18 Personen im Experiment und Ȳk für die durchschnittliche erlebte Stimmungsänderung der 6 Personen in der Gruppe k.[#]

Nachdem wir die Notation geklärt haben, können wir damit beginnen, Formeln aufzuschreiben. Für den Anfang erinnern wir uns an die Formel für die Varianz, die wir verwendet haben, als wir uns noch mit deskriptiver Statistik befassten. Die Stichprobenvarianz von Y ist wie folgt definiert:

\[\mbox{Var}(Y) = \frac{1}{N} \sum_{k=1}^G \sum_{i=1}^{N_k} \left(Y_{ik} - \bar{Y} \right)^2\]

Diese Formel ist der Formel für die Varianz ziemlich ähnlich. Der einzige Unterschied ist, dass ich diesmal zwei Summen gebildet habe: Ich summiere über die Gruppen (d.h., Werte für k) und über die Personen innerhalb der Gruppen (d.h., Werte für :`i). Dabei handelt es sich um ein rein kosmetisches Detail. Hätte ich stattdessen die Schreibweise Yp verwendet, um den Wert der Ergebnisvariable für die Person p in der Stichprobe zu bezeichnen, dann hätte ich nur eine Summe. Der einzige Grund, warum wir hier zwei Summen haben, ist, dass ich die Personen in Gruppen eingeteilt und dann den Personen innerhalb der Gruppen Zahlen zugewiesen habe.

Ein konkretes Beispiel könnte hier nützlich sein. Betrachten wir diese Tabelle, in der wir insgesamt N = 5 Personen haben, die in G = 2 Gruppen eingeteilt. Nehmen wir willkürlich an, dass die „coolen“ Leute in Gruppe 1 und die „uncoolen“ Leute in Gruppe 2 sind. Es stellt sich heraus, dass wir drei coole Leute (N1 = 3) und zwei uncoole Leute (N2 = 2) haben.

Name

Person

Gruppe

Gruppennr.

Index in der Gruppe

schlechte Laune

p

k

i

Yik oder Yp

Ann

1

cool

1

1

20

Ben

2

cool

1

2

55

Cat

3

cool

1

3

21

Tim

4

uncool

2

1

91

Egg

5

uncool

2

2

22

Beachten Sie, dass ich hier zwei verschiedene Bezeichnungsschemata konstruiert habe. Wir haben eine „Personen“-Variable p, so dass es durchaus sinnvoll wäre, Yp als die Übellaunigkeit der p-ten Person in der Stichprobe zu bezeichnen. Zum Beispiel zeigt die Tabelle, dass Tim die vierte Person ist, also würden wir sagen p = 4. Wenn wir also über die Übellaunigkeit Y dieser Person „Tim“ sprechen, wer auch immer er sein mag, könnten wir seine Grißegrämigkeit bezeihnen, indem wir also sagen, Yp = 91 für die Person p = 4. Das ist jedoch nicht die einzige Möglichkeit, wie wir uns auf Tim beziehen können. Alternativ könnten wir feststellen, dass Tim zur Gruppe der „uncoolen“ gehört (k = 2) und sogar die erste Person ist, die in der Gruppe der „uncoolen“ aufgeführt ist (i = 1). Es ist also ebenso gültig, Tims schlechte Laune mit Yik = 91 zu bezeichnen, wobei k = 2 und i = 1 ist.

Mit anderen Worten, jede Person p entspricht einer eindeutigen Kombination von ik, und so ist die Formel, die ich oben angegeben habe, eigentlich identisch mit unserer ursprünglichen Formel für die Varianz, welche lauten würde

\[\mbox{Var}(Y) = \frac{1}{N} \sum_{p=1}^N \left(Y_{p} - \bar{Y} \right)^2\]

In beiden Formeln wird lediglich die Summe über alle Beobachtungen in der Stichprobe gebildet. In den meisten Fällen würden wir die einfachere Schreibweise Yp verwenden und die Gleichung mit Yp ist eindeutig die einfachere der beiden. Bei einer ANOVA ist es jedoch wichtig zu wissen, welche Teilnehmer zu welchen Gruppen gehören, und dafür müssen wir die Notation Yik verwenden.

Von Varianzen zu Quadratsummen

Jetzt, wo wir wissen, wie die Varianz berechnet wird, definieren wir die Gesamtquadratsumme (total sum of squares), die bezeichnet wird als SStot. Dies ist sehr einfach. Anstatt den Mittelwert der quadrierten Abweichungen zu bilden, wie wir das bei Berechnen der Varianz tun, addieren wir sie einfach auf.

Die Formel für die Gesamtquadratsumme ist also fast identisch mit der Formel für die Varianz

\[\mbox{SS}_{tot} = \sum_{k=1}^G \sum_{i=1}^{N_k} \left(Y_{ik} - \bar{Y} \right)^2\]

Wenn wir im Rahmen der ANOVA über die Analyse von Varianzen sprechen, arbeiten wir eigentlich mit der Gesamtquadratsumme und nicht mit der tatsächlichen Varianz. Eine sehr schöne Sache an der Geamtquadratsumme ist, dass wir sie in zwei verschiedenen Arten von Variation unterteilen können.

Zunächst können wir über die Quadratsumme innerhalb einer Gruppe (within-group sum of squares) sprechen, bei der wir untersuchen, wie sehr sich jede einzelne Person von ihrem eigenen Gruppenmittelwert unterscheidet

\[\mbox{SS}_w = \sum_{k=1}^G \sum_{i=1}^{N_k} \left( Y_{ik} - \bar{Y}_k \right)^2\]

wobei Ȳk der Gruppenmittelwert ist. In unserem Beispiel wäre Ȳk die durchschnittliche Stimmungsänderung der Personen, die das k-te Medikament erhalten haben. Anstatt also einzelne Personen mit dem Durchschnitt aller Personen im Experiment zu vergleichen, vergleichen wir sie nur mit den Personen innerhalb derselben Gruppe. Folglich erwartet man, dass der Wert von SSw kleiner ist als die Gesamtquadratsumme, weil jegliche Gruppenunterschiede ignoriert werden, d. h. wenn die Medikamente unterschiedliche Auswirkungen auf die Stimmung der Menschen haben.

Als Nächstes können wir einen dritten Begriff der Variation definieren, der nur die Unterschiede zwischen den Gruppen erfasst. Wir tun dies, indem wir die Unterschiede zwischen den Gruppenmitteln Ȳk und dem Gesamtmittelwert Ȳ betrachten.

Um das Ausmaß dieser Variation zu erfassen, berechnen wir die Quadratsumme zwischen den Gruppen (between-group sum of squares)

\[\begin{split}\begin{aligned} \mbox{SS}_{b} &=& \sum_{k=1}^G \sum_{i=1}^{N_k} \left( \bar{Y}_k - \bar{Y} \right)^2 \\ &=& \sum_{k=1}^G N_k \left( \bar{Y}_k - \bar{Y} \right)^2\end{aligned}\end{split}\]

Es ist nicht allzu schwierig zu zeigen, dass die Gesamtvariation zwischen den Personen im Experiment SStot eigentlich die Summe der Unterschiede zwischen den Gruppen SSb und der Variation innerhalb der Gruppen Swist. Das bedeutet,

SSw + SSb = SStot

Juhu (Yay).

Veranschaulichung der Variation zwischen und innerhalb der Gruppen

Abb. 131 Grafische Darstellung der Variation „zwischen den Gruppen“ (links) und „innerhalb der Gruppen“ (rechts). Die Pfeile in der linken Abbildung zeigen die Unterschiede zwischen den Gruppenmittelwerten an. Die Pfeile in der rechten Abbildung heben die Variabilität innerhalb jeder Gruppe hervor.

Okay, was haben wir also herausgefunden? Wir haben herausgefunden, dass die Gesamtvariabilität, die mit der Ergebnisvariable (SStot) verbunden ist, mathematisch in die Summe „der Variation, die durch die Unterschiede zwischen den Stichprobenmittelwerten der Gruppen“ (SSb) plus „der gesamten restlichen Variation“ (SSw) zerlegt werden kann.[2] Wie hilft mir das dabei herauszufinden, ob die Gruppen unterschiedliche Populationsmittelwerte haben? Ähm. Moment. Eine Sekunde. Jetzt, wo ich darüber nachdenke, ist das genau das, wonach wir gesucht haben. Wenn die Nullhypothese wahr ist, dann würden wir erwarten, dass alle Stichprobenmittelwerte untereinander ziemlich ähnlich sind, richtig? Das würde bedeuten, dass wir erwarten würden, dass SSb wirklich klein ist, oder zumindest würden wir erwarten, dass sie viel kleiner ist als „die mit allem anderen verbundene Variation“, SSw. Hmm. Ich spüre, dass da ein Hypothesentest im Anmarsch ist.

Von den Quadratsummen zum F-Test

Wie wir im letzten Abschnitt gesehen haben, besteht die qualitative Idee hinter der ANOVA darin, die beiden Quadratsummen SSb und SSw miteinander zu vergleichen. Wenn die Variation zwischen den Gruppen (between-group variation) SSb im Verhältnis zur Variation innerhalb der Gruppen (within-group variation *) |SS_w| groß ist, haben wir Grund zu der Annahme, dass die Populationsmittelwerte für die verschiedenen Gruppen nicht identisch sind. Um dies in einen praktikablen Hypothesentest umzuwandeln, ist ein wenig „Tüftelei“ erforderlich. Ich werde Ihnen zunächst zeigen, *was wir tun, um unsere Teststatistik, den F-Wert, zu berechnen, und dann versuchen, Ihnen ein Gefühl dafür zu vermitteln, warum wir es auf diese Weise tun.

Um unsere SS-Werte in einen F-Wert umzuwandeln, müssen wir zunächst die Freiheitsgrade berechnen, die mit den SSb und SSw Werten verbunden sind. Wie üblich entsprechen die Freiheitsgrade der Anzahl der eindeutigen „Datenpunkte“, die zu einer bestimmten Berechnung beitragen, abzüglich der Anzahl der „Einschränkungen“, die sie erfüllen müssen. Für die Variabilität innerhalb der Gruppen (within-groups variability) berechnen wir die Variation der einzelnen Beobachtungen (N Datenpunkte) um die Gruppenmittelwerte (G Einschränkungen). Im Gegensatz dazu sind wir bei der Variabilität zwischen den Gruppen an der Variation der Gruppenmittelwerte (G Datenpunkte) um den Gesamtmittelwert (1 Einschränlung) interessiert. Daher sind die Freiheitsgrade hier:

dfb = G - 1
dfw = N - G

Okay, das scheint ziemlich einfach zu sein. Als Nächstes wandeln wir unseren Wert der Quadratsummen in einen Wert der „mittlere quadrierte Abweichungen“ (mean squares, MS) um, indem wir ihn durch die Freiheitsgrade teilen:

MSb = SSb / dfb
MSw = SSw / dfw

Schließlich berechnen wir den F-Bruch, indem wir die MS zwischen den Gruppen durch die MS innerhalb der Gruppen dividieren:

F = MSb / MSw

Auf einer sehr generellen Ebene ist die F-Statistik ziemlich intuitiv. Größere F-Werte bedeuten, dass die Variation zwischen den Gruppen im Verhältnis zu der Variation innerhalb der Gruppen groß ist. Je größer also der F-Wert, desto stärker ist die Evidenz gegen die Nullhypothese. Aber wie groß muss F sein, um die H0 tatsächlich abzulehnen? Um dies zu verstehen, müssen Sie etwas genauer wissen, was eine ANOVA ist und was die Werte der mittleren quadrierten Abweichungen eigentlich bedeuten.

Im nächsten Abschnitt wird dies etwas ausführlicher erörtert, aber für Leser, die sich nicht für die Einzelheiten dessen interessieren, was der Test eigentlich misst, werde ich mich kurz fassen. Um unseren Hypothesentest durchführen zu können, müssen wir die Stichprobenverteilung für F kennen, wenn die Nullhypothese wahr ist. Es überrascht nicht, dass die Stichprobenverteilung für die F-Statistik unter der Nullhypothese eine F-Verteilung ist. Wenn Sie sich an unsere Diskussion der F-Verteilung im Kapitel Einführung in die Wahrscheinlichkeitsrechnung erinnern, hat die F-Verteilung zwei Parameter, die den zwei beteiligten Freiheitsgraden entsprechen. Der erste Parameter df1 entspricht den Freiheitsgraden zwischen den Gruppen dfb, und der zweite Parameter df2 entspricht den Freiheitsgraden innerhalb der Gruppen dfw.

Eine Zusammenfassung aller wichtigen Größen, die an einer einfaktoriellen ANOVA (one-way ANOVA) beteiligt sind, einschließlich der Formeln, die zeigen, wie sie berechnet werden, ist zu finden in Tab. 16.

Tab. 16 Alle wichtigen Größen, die man für das Berechnen einer ANOVA benötigt, sind in einer „Standard“-ANOVA-Tabelle zusammengefasst. Die Formeln für alle Größen (mit Ausnahme des p-Wertes, der eine sehr hässliche Formel hat und ohne Computer nur sehr schwer zu berechnen wäre) sind angegeben.

df

Quadratsummen

Mittlere quadrierte Abweichungen

F-Statistik

p-Wert

zwischen Gruppen

dfb = G - 1

SSb = \(\displaystyle\sum_{k=1}^G N_k(\bar{Y}_k - \bar{Y})^2\)

MSb = SSb / dfb

F = MSb / MSw

[kompliziert]

innerhalb von Gruppen

dfw = N - G

SSw = \(\displaystyle\sum_{k=1}^G \displaystyle\sum_{i = 1}^{N_k} ({Y}_{ik} - \bar{Y}_k)^2\)

MSw = SSw / dfw

Ein Modell für die Daten und die Bedeutung von F

Im Grunde ist die ANOVA ein Wettbewerb zwischen zwei verschiedenen statistischen Modellen, H0 und H1. Als ich zu Beginn des Abschnitts die Null- und Alternativhypothesen beschrieben habe, war ich etwas ungenau in der Beschriebung, was diese Modelle eigentlich sind. Ich werde das jetzt korrigieren, auch wenn Sie das wahrscheinlich nicht gut finden werden. Wenn Sie sich erinnern, war unsere Nullhypothese, dass alle Gruppenmittelwerte identisch sind. Wenn dies der Fall ist, dann ist eine natürliche Art und Weise, über die Ergebnisvariable Yik nachzudenken, die individuellen Ergebnisse in Form eines einzigen Populationsmittelwerts µ zu beschreiben, plus der Abweichung von diesem Populationsmittelwert. Diese Abweichung wird in der Regel mit ϵik bezeichnet und wird traditionell als Fehler oder Residuum bezeichnet, die mit dieser Beobachtung verbunden ist. Seien Sie jedoch vorsichtig. Genau wie beim Wort „signifikant“ hat das Wort „Fehler“ in der Statistik eine technische Bedeutung, die nicht ganz mit der alltagssprachlichen Definition übereinstimmt. In der Alltagssprache impliziert „Fehler“ eine Art von Irrtum, in der Statistik jedoch nicht (oder zumindest nicht unbedingt). In diesem Sinne ist das Wort „Residuum“ ein besserer Begriff als das Wort „Fehler“. In der Statistik bedeuten beide Wörter „Restvariabilität“, d. h. „Dinge“, die das Modell nicht erklären kann.

In jeden Fall sieht die Nullhypothese so aus, wenn wir sie als statistisches Modell schreiben

Yik = µ + ϵik

wobei wir die Annahme machen (die später diskutiert wird), dass die Residualwerte ϵik normalverteilt sind, mit einem Mittelwert von 0 und einer Standardabweichung σ, und für alle Gruppen gleich sind. Um die Notation zu verwenden, die wir in Kapitel Einführung in die Wahrscheinlichkeitsrechnung eingeführt haben, würden wir diese Annahme wie folgt schreiben:

ϵik ~ Normal(0, σ²)

Und was ist mit der Alternativhypothese, H1? Der einzige Unterschied zwischen der Nullhypothese und der Alternativhypothese besteht darin, dass wir zulassen, dass jede Gruppe einen anderen Populationsmittelwert hat. Wenn wir also µk als den Populationsmittelwert für die k-te Gruppe in unserem Experiment bezeichnen, dann lautet das entsprechende statistische Modell, das H1

Yik = µk + ϵik

wobei wir wiederum annehmen, dass die Fehlerterme normalverteilt sind mit dem Mittelwert 0 und der Standardabweichung σ. Das heißt, die Alternativhypothese geht ebenfalls davon aus, dass ϵ ~ Normal(0, σ²)

Nachdem wir nun die statistischen Modelle, die der H0 und der H1 zugrunde liegen, genauer beschrieben haben, ist es jetzt ziemlich einfach zu sagen, was die mittleren quadrierten Abweichungen messen und was dies für die Interpretation von F bedeutet. Ich werde Sie nicht mit dem Beweis dafür langweilen, aber es stellt sich heraus, dass die mittleren quadrierten Abweichungen innerhalb der Gruppen, MSw, als ein Schätzer (im technischen Sinne, Kapitel Schätzen unbekannter Größen anhand einer Stichprobe) der Fehlervarianz σ² angesehen werden können. Die mittleren quadrierten Abweichungen zwischen den Gruppen MSb sind ebenfalls ein Schätzer, aber dieser schätzt die Fehlervarianz plus eine Größe, die von den wahren Unterschieden zwischen den Gruppenmitteln abhängt. Wenn wir diese Größe Q nennen, dann können wir sehen, dass die F-Statistik im Grunde genommen ist:[3]

\[F = \frac{\hat{Q} + \hat\sigma^2}{\hat\sigma^2}\]

wobei der wahre Wert Q = 0 ist, wenn die Nullhypothese wahr ist, und Q > 0, wenn die Alternativhypothese wahr ist (Hays, 1994, Ch. 10). Daher muss der F-Wert größer als 1 sein, um eine Chance zu haben, die Nullhypothese zurückzuweisen. Beachten Sie, dass dies nicht bedeutet, dass es unmöglich ist, einen F-Wert kleiner als 1 zu erhalten. Es bedeutet vielmehr, dass, wenn die Nullhypothese wahr ist, die Stichprobenverteilung des F-Bruchs einen Mittelwert von 1 hat,[4] und wir daher F-Werte größer als 1 sehen müssen, um die Nullhypothese sicher zurückzuweisen.

Um die Stichprobenverteilung etwas genauer zu beschreiben, ist zu beachten, dass, wenn die Nullhypothese wahr ist, sowohl MSb als auch MSw Schätzer der Varianz der Residuen ϵik sind. Wenn diese Residuen normalverteilt sind, dann könnte man vermuten, dass die Varianzschätzung für ϵik χ²-verteilt ist: Eine χ²-Verteilung entsteht immer dann, wenn man eine Reihe normalverteilter Werte quadriert und sie aufaddiert (siehe Weitere nützliche Verteilungen). Und da die F -Verteilung (wiederum per Definition) das ist, was man erhält, wenn man das Verhältnis von zwei Werten berechnet, die χ²-verteilt sind, haben wir unsere Stichprobenverteilung. Natürlich beschönige ich eine ganze Menge, wenn ich das sage, aber im Großen und Ganzen ist das der Ursprung unserer Stichprobenverteilung.

Ein praktisches Beispiel

Die vorangegangene Diskussion war ziemlich abstrakt und ein wenig technisch, daher denke ich, dass es an dieser Stelle nützlich sein könnte, ein praktisches Beispiel zu betrachten. Kehren wir dazu zum Datensatz clinicaltrial zurück, der zu Beginn des Kapitels vorgestellt wurde. Die deskriptive Statistik, die wir zu Beginn berechnet haben, gibt uns unsere Gruppenmittelwerte: Eine durchschnittliche Stimmungsverbesserung von 0,45 für das Placebo, 0,72 für Anxifree und 1,48 für Joyzepam. Mit diesem Wissen im Hinterkopf, lassen Sie uns feiern, als wäre es 1899[5] und beginnen Sie damit, einige Berechnungen mit Bleistift und Papier durchzuführen. Ich werde dies nur für die ersten 5 Beobachtungen tun, da es nicht das verdammte Jahr 1899 ist und ich sehr faul bin. Beginnen wir mit der Berechnung von SSw, den Quadratsummen innerhalb der Gruppe. Zunächst erstellen wir eine schöne Tabelle, die uns bei unseren Berechnungen hilft:

Gruppe

Kriterium

k

Yik

Placebo

0.5

Placebo

0.3

Placebo

0.1

Anxifree

0.6

Anxifree

0.4

In diesem Stadium habe ich nur die Rohdaten in die Tabelle aufgenommen. Das heißt, die Gruppierungsvariable (in diesem Fall drug) und die Ergebnisvariable (d. h. mood.gain) für jede Person. Beachten Sie, dass die Ergebnisvariable hier dem Wert Yik in unserer vorherigen Gleichung entspricht. Der nächste Schritt in der Berechnung besteht darin, für jede Person in der Studie den entsprechenden Gruppenmittelwert, Ȳk, aufzuschreiben. Dies ist eine leichte Wiederholung, aber nicht besonders schwierig, da wir diese Gruppenmittelwerte bereits beim Erstellen unserer deskriptiven Statistik berechnet haben:

Gruppe

Kriterium

Gruppenmittelwert

k

Yik

Ȳk

Placebo

0.5

0.45

Placebo

0.3

0.45

Placebo

0.1

0.45

Anxifree

0.6

0.72

Anxifree

0.4

0.72

Nachdem wir diese nun aufgeschrieben haben, müssen wir wieder für jede Person die Abweichung vom entsprechenden Gruppenmittelwert berechnen. Das heißt, wir wollen Yik - Ȳk subtrahieren. Nachdem wir das getan haben, müssen wir alles quadrieren. Wenn wir das tun, erhalten wir das folgende Ergebnis:

Gruppe

Kriterium

Gruppenmittelwert

Abweichung vom Gruppenmittelwert

quadrierte Abweichung

k

Yik

Ȳk

(Yik - Ȳk)

(Yik - Ȳk

Placebo

0.5

0.45

0.05

0.0025

Placebo

0.3

0.45

-0.15

0.0225

Placebo

0.1

0.45

-0.35

0.1225

Anxifree

0.6

0.72

-0.12

0.0136

Anxifree

0.4

0.72

-0.32

0.1003

Der letzte Schritt ist ebenso einfach. Um die Quadratsummen innerhalb der Gruppen zu berechnen, addieren wir einfach die quadrierten Abweichungen über alle Beobachtungen:

SSw = 0.0025 + 0.0225 + 0.1225 + 0.0136 + 0.1003 = 0.2614

Wenn wir tatsächlich die richtige Antwort erhalten wollten, müssten wir dies natürlich für alle 18 Beobachtungen im Datensatz tun, nicht nur für die ersten fünf. Wir könnten mit den Berechnungen mit Bleistift und Papier weitermachen, wenn wir wollten, aber das ist ziemlich mühsam. Alternativ dazu ist es nicht allzu schwer, dies in Jamovi zu tun.

  1. Gehen Sie zu einer leeren Spalte (am Ende des Datensatzes) und doppelklicken Sie auf die Spaltenüberschrift, wählen Sie „Neue berechnete Variable“ und geben Sie sq_res_wth in die erste Zeile und die Formel (mood.gain - VMEAN(mood.gain, group_by = drug)) ^ 2 in die Zeile beginnend mit = (neben fx) ein. mood.gain` ` steht für |Y_ik|, ``VMEAN(mood.gain, group_by = drug) für den Gruppenmittelwert Ȳk. Diese Differenz (dritte Spalte in der obigen Tabelle) wird dann quadriert und es ist daher nicht sehr überraschend, dass die Werte (abgesehen von Rundungsfehlern) mit denen in der letzten Spalte der obigen Tabelle identisch sind.

Okay. Nachdem wir nun die Variation innerhalb der Gruppen, SSw, berechnet haben, ist es an der Zeit, unsere Aufmerksamkeit auf die Quadratsummen zwischen den Gruppen, SSb, zu richten. Die Berechnungen für diesen Fall sind sehr ähnlich. Der Hauptunterschied besteht darin, dass wir nicht die Unterschiede zwischen einer Beobachtung Yik und einem Gruppenmittelwert Ȳk für alle Beobachtungen berechnen, sondern die Unterschiede zwischen den Gruppenmittelwerten Ȳk und dem Gesamtmittelwert Ȳ (in diesem Fall 0,88) für alle Gruppen.

Gruppe

Gruppenmittelwert

Gesamtmittelwert

Abweichung

quadrierte Abweichungen

k

Ȳk

Ȳ

Ȳk - Ȳ

(Ȳk - Ȳ

Placebo

0.45

0.88

-0.43

0.19

Anxifree

0.72

0.88

-0.16

0.03

Joyzepam

1.48

0.88

0.60

0.36

  1. Wir erstellen eine weitere berechnete Variable mit dem Namen sq_res_btw und (VMEAN(mood.gain, group_by = drug) - VMEAN(mood.gain) - ) ^ 2 als Formel. Der Term VMEAN(mood.gain, group_by = drug) steht für den Gruppenmittelwert Ȳk, und VMEAN(mood.gain) für den Gesamtmittelwert Ȳ. Auch hier finden wir, dass die Werte für diese Variable die gleichen sind wie in der letzten Spalte der obigen Tabelle: die ersten drei Zeilen stehen für „Placebo“, gefolgt von drei Zeilen mit „Anxifree“ und drei Zeilen mit „Joyzepam“; die nächsten neun Zeilen sind eine Wiederholung der ersten neun Zeilen.

Für die Berechnungen zwischen den Gruppen müssen wir jedoch jede dieser quadrierten Abweichungen mit Nk, der Anzahl der Beobachtungen in der Gruppe, multiplizieren. Wir tun dies, weil jede Beobachtung in der Gruppe (alle Nk) mit einer Differenz zwischen den Gruppen verbunden ist. Wenn also sechs Personen in der Placebogruppe sind und der Mittelwert der Placebogruppe um 0,19 vom Gesamtmittelwert abweicht, dann ist die gesamte Zwischengruppenvariation, die mit diesen sechs Personen verbunden ist, 6 - 0,19 = 1,14. Wir müssen also unsere kleine Tabelle mit den Berechnungen erweitern:

Gruppe

quadrierte Abweichungen

Stichprobengröße

gewichtete quadrierte Abweichung.

k

(Ȳk - Ȳ

Nk

Nk · (Ȳk - Ȳ

Placebo

0.19

6

1.14

Anxifree

0.03

6

0.18

Joyzepam

0.36

6

2.16

Die Quadratsumme zwischen den Gruppen ergibt sich also aus der Summe dieser „gewichteten quadratischen Abweichungen“ über alle drei Gruppen der Studie:

SSb = 1.14 + 0.18 + 2.16 = 3.48

Wie Sie sehen können, sind die Berechnungen zwischen den Gruppen viel kürzer (wenn sie von Hand berechnet werden).

  1. In jamovi können wir diese Summen, d.h. die Werte für SSb und SSw, berechnen, indem wir DescriptivesDescriptive Statistics anklicken, dann sq_res_wth und sq_res_btw in das Feld Variables verschieben und schließlich Sum aus dem Dropdown-Menü Statistics auswählen. Die Summe von sq_res_wth (SSw) hat einen Wert von 1.392 und sq_res_wth (SSb) einen Wert von 3.453 (nur um Rundungsfehler abweichend von den 3.48, die wir oben berechnet haben).

Nachdem wir nun unsere Quadratsummen, SSb und SSw, berechnet haben, ist der Rest der ANOVA ziemlich mühelos zu berechnen. Der nächste Schritt ist das Berechnen der Freiheitsgrade. Da wir G = 3 Gruppen und N = 18 gesamte Beobachtungen haben, können unsere Freiheitsgrade durch einfache Subtraktion berechnet werden:

dfb = G - 1 = 2 dfw = N - G = 15

Da wir nun die Werte für die Quadratsummen und die Freiheitsgrade sowohl für die Variabilität innerhalb der Gruppen als auch für die Variabilität zwischen den Gruppen berechnet haben, erhalten wir die Werte der mittleren quadrierten Abweichungen, indem wir den einen Wert durch den anderen dividieren:

\[\begin{split}\begin{array}{lclclcl} \mbox{MS}_b &=& \displaystyle\frac{\mbox{SS}_b }{ \mbox{df}_b } &=& \displaystyle\frac{3.453}{ 2} &=& 1.727 \\ \mbox{MS}_w &=& \displaystyle\frac{\mbox{SS}_w }{ \mbox{df}_w } &=& \displaystyle\frac{1.392}{15} &=& 0.093 \end{array}\end{split}\]

Wir sind fast fertig. Die mittleren quadrierten Abweichungen können verwendet werden, um den F-Wert zu berechnen, der die Teststatistik ist, an der wir interessiert sind. Dazu wird der MS-Wert zwischen den Gruppen durch den MS-Wert innerhalb der Gruppen geteilt.[6]

\[F = \frac{\mbox{MS}_b }{\mbox{MS}_w} = \frac{1.727}{0.093} = 18.611\]

Juhu! Das ist ja ziemlich aufregend, oder? Da wir nun unsere Teststatistik haben, müssen wir im letzten Schritt herausfinden, ob der Test nun ein signifikantes Ergebnis liefert. Wie in Kapitel Das Überprüfen von Hypothesen besprochen, haben wir in den „alten Zeiten“ ein Statistik-Lehrbuch aufgeschlagen oder blätterten im hinteren Teil, der eine große Nachschlagetabelle enthielt, und suchten den Schwellenwert F für einen bestimmten Wert von α (den Bereich, in dem die Nullhypothese abgelehnt wird), z. B. 0,05, 0,01 oder 0,001, für 2 und 15 Freiheitsgrade. Auf diese Weise würden wir einen Schwellenwert F für ein α von 0,001 von 11,34 erhalten. Da dieser Wert kleiner ist als der von uns berechnete F-Wert, sagen wir, dass p < 0,001. Aber das waren die alten Zeiten, heutzutage berechnet eine ausgeklügelte Statistiksoftware den genauen p-Wert für Sie. Tatsächlich ist der genaue p-Wert 0,000086. Wenn wir also nicht extrem konservativ sind, was unsere Typ-I-Fehlerrate angeht, ist es so gut wie sicher, dass wir die Nullhypothese zurückweisen.

An diesem Punkt sind wir im Grunde fertig. Nachdem wir unsere Berechnungen abgeschlossen haben, ist es üblich, all diese Zahlen in einer ANOVA-Tabelle wie der in Tab. 16 zu präsentieren. Für unseren clinicaltrial-Datensatz würde die ANOVA-Tabelle wie folgt aussehen:[7]

df

Quadratsummen

Mittlere quadrierte Abweichungen

F-Statistik

p-Wert

zwischen Gruppen

2

3.453

1.727

18.611

0.000086

innerhalb von Gruppen

15

1.392

0.093

Heutzutage gibt es wahrscheinlich keinen Grund mehr, eine solche Tabelle selbst zu erstellen, aber Sie werden feststellen, dass fast alle statistischen Programme (einschließlich jamovi) dazu neigen, die Ergebnisse einer ANOVA in einer solchen Tabelle zusammenzufassen, so dass es eine gute Idee ist, sich daran zu gewöhnen, sie zu lesen. Obwohl die Software eine vollständige ANOVA-Tabelle ausgibt, gibt es fast nie einen guten Grund, die gesamte Tabelle in Ihr Paper aufzunehmen. Um das Ergebnis einer ANOVA zu berichten, würde man standardmäßig etwas in dieser Art schreiben:

Die einfaktorielle ANOVA (one-way ANOVA) zeigte einen signifikanten Effekt der Medikation auf die Stimmungsverbesserung: F(2,15) = 18,61, p < 0,001.

Seufz. So viel Arbeit für einen so kurzen Satz.