Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Effektstärke

Das am häufigsten verwendete Maß für die Effektstärke eines t-Tests ist Cohen’s d (Cohen, 1988). Im Prinzip handelt es sich dabei um ein sehr einfaches Maß, das jedoch einige Schwierigkeiten mit sich bringt, wenn man sich mit den Details befasst. Cohen selbst definierte es in erster Linie für die Verwendung im Zusammenhang mit dem t-Test für unabhängige Stichproben, insbesondere dem Student-Test. In diesem Zusammenhang besteht eine natürliche Methode zur Definition der Effektstärke darin, die Differenz zwischen den Mittelwerten durch eine Schätzung der Standardabweichung zu teilen. Mit anderen Worten, wir versuchen, etwas in dieser Richtung zu berechnen:

d = (Mittelwert 1 - Mittelwert 2) / Std. abw.

und er schlug einen groben Leitfaden für die Interpretation von d in Tab. 12 vor. Man sollte meinen, dass dies ziemlich eindeutig ist, aber das ist es nicht. Das liegt vor allem daran, dass Cohen sich nicht allzu genau darüber ausließ, was seiner Meinung nach als Maß für die Standardabweichung verwendet werden sollte (zu seiner Verteidigung sei gesagt, dass er in seinem Buch einen breiteren Standpunkt vertreten wollte und sich nicht mit eher unbedeutenden Details aufhalten wollte). Wie McGrath und Meyer (2006) erörtert haben, gibt es mehrere verschiedene Versionen, die allgemein gebräuchlich sind, und jeder Autor neigt dazu, eine etwas andere Notation zu verwenden. Der Einfachheit halber (im Gegensatz zur Genauigkeit) werde ich d für jede Statistik verwenden, die Sie aus der Stichprobe berechnen, und δ für einen theoretischen Populationseffekt. Das bedeutet natürlich, dass es mehrere verschiedene Dinge gibt, die alle d heißen.

Ich vermute, dass Sie Cohens d nur dann brauchen, wenn Sie einen t-Test durchführen, und jamovi hat eine Option zum Berechnen der Effektstärke bei allen Arten von t-Tests, die es anbietet.

Tab. 12 Ein (sehr) grober Leitfaden zur Interpretation von Cohens d. Meine persönliche Empfehlung ist, diese Richtlinien nicht blind zu verwenden. Die d-Statistik hat an und für sich eine natürliche Interpretation. Sie beschreibt die Differenz der Mittelwerte als die Anzahl der Standardabweichungen, die diese Mittelwerte voneinander trennen. Es ist also im Allgemeinen eine gute Idee, darüber nachzudenken, was das in praktischer Hinsicht bedeutet. In manchen Kontexten kann ein „kleiner“ Effekt von großer praktischer Bedeutung sein. In anderen Situationen ist ein „großer“ Effekt vielleicht gar nicht so interessant.

d-Wert

grobe Interpretation

etwa 0,2

„kleiner“ Effekt

etwa 0,5

„mäßiger“ Effekt

etwa 0,8

„großer“ Effekt

Cohen’s d bei einer Stichprobe

Die einfachste Situation entspricht einem t-Test mit einer Stichprobe. In diesem Fall handelt es sich um einen Stichprobenmittelwert und einen (hypothetischen) Populationsmittelwert µo, mit dem er verglichen wird. Und nicht nur das: Es gibt eigentlich nur eine sinnvolle Möglichkeit, die Standardabweichung in der Grundgesamtheit zu schätzen. Wir verwenden einfach unsere übliche Schätzung \(\hat{\sigma}\). Daher ist die einzige Möglichkeit zur Berechnung von d die folgende:

\[d = \frac{\bar{X} - \mu_0}{\hat{\sigma}}\]

Wenn wir uns die Ergebnisse in Abb. 87 ansehen, ist der Wert der Effektstärke Cohen’s d = 0,50. Insgesamt erreichen die Psychologiestudenten in der Klasse von Dr. Zeppo also Noten (Mittelwert = 72,3 %), die etwa 0,5 Standardabweichungen über dem Niveau liegen, das man erwarten würde (67,5 %), wenn sie die gleichen Leistungen wie Studenten anderer Studienrichtungen erbringen würden. Gemessen an Cohens grobem Richtwert handelt es sich dabei um eine moderate Effektstärke.

Cohens d in einem t-Test nach Student

Die meisten Diskussionen über Cohens d konzentrieren sich auf eine Situation, die dem t-Test für unabhängige Stichproben nach Student entspricht. Leider wird die Sache etwas unübersichtlicher, da es mehrere verschiedene Versionen von d gibt, die man in dieser Situation verwenden könnte. Um zu verstehen, warum es mehrere Versionen von d gibt, hilft es, sich die Zeit zu nehmen, eine Formel aufzuschreiben, die der wahren Populationseffektstärke δ entspricht. Sie ist ziemlich einfach: δ = (µ1 - µ2) /

wobei, wie üblich, µ1 und µ2 die Mittelwerte in der Grundgesamtheit sind, die der Gruppe 1 bzw. der Gruppe 2 entsprechen, und σ die Standardabweichung ist (die für beide Populationen gleich ist). Der offensichtliche Weg zur Schätzung von δ besteht darin, genau dasselbe zu tun wie beim t-Test selbst, d. h. die Stichprobenmittelwerte als Zähler und eine gepoolte Schätzung der Standardabweichung als Nenner zu verwenden

\[d = \frac{\bar{X}_1 - \bar{X}_2}{\hat{\sigma}_p}\]

wobei \(\hat\sigma_p\) genau das gleiche gepoolte Standardabweichungsmaß ist, das im t-Test verwendet wird. Dies ist die am häufigsten verwendete Version von Cohen’s d, wenn sie auf das Ergebnis eines t-Tests nach Student angewandt wird, und sie ist die in jamovi verwendete Version. Sie wird manchmal auch als Hedges‘ g Statistik bezeichnet (Hedges, 1981).

Es gibt jedoch auch andere Möglichkeiten, die ich kurz beschreiben werde. Erstens kann es sinnvoll sein, nur eine der beiden Gruppen als Grundlage für die Berechnung der Standardabweichung zu verwenden. Dieser Ansatz (oft Glass‘ Δ genannt, ausgesprochen delta) ist nur dann sinnvoll, wenn Sie gute Gründe haben, eine der beiden Gruppen als reineren Ausdruck der „natürlichen Variation“ zu betrachten als die andere. Dies kann z. B. der Fall sein, wenn eine der beiden Gruppen eine Kontrollgruppe ist. Zweitens sei daran erinnert, dass bei der üblichen Berechnung der gepoolten Standardabweichung durch N - 2 geteilt wird, um die Verzerrung der Stichprobenvarianz zu korrigieren. In einer Version von Cohens d wird diese Korrektur weggelassen und stattdessen durch N geteilt. Diese Version ist vor allem dann sinnvoll, wenn man versucht, die Effektstärke in der Stichprobe zu berechnen, anstatt eine Effektstärke in der Grundgesamtheit zu schätzen. Schließlich gibt es noch eine Version, die auf Hedges und Olkin (1985) basiert, die darauf hinweisen, dass es bei der üblichen (gepoolten) Schätzung für Cohens d eine kleine Verzerrung gibt. Daher führen sie eine Korrektur ein, indem sie den üblichen Wert von d mit (N - 3) / (N - 2,25) multiplizieren.

Wie auch immer, ignorieren Sie all diese Variationen, die Sie nutzen könnten, wenn Sie wollten, lassen Sie uns einen Blick auf die Standardversion in jamovi werfen. In Abb. 91 ist Cohens d = 0,74, was bedeutet, dass die Noten der Schüler in Anastasias Klasse im Durchschnitt um 0,74 Standardabweichungen höher sind als die Noten der Schüler in Bernadettes Klasse. Bei einem Welch-Test ist die geschätzte Effektstärke die gleiche (Abb. 93).

Cohens d aus einem t-Test für gepaarte Stichproben

Und schließlich, was sollen wir bei einem t-Test mit gepaarten Stichproben tun? In diesem Fall hängt die Antwort davon ab, was Sie zu tun versuchen. jamovi geht davon aus, dass Sie Ihre Effektstärken relativ zur Verteilung der Differenzwerte messen wollen, und das von Ihnen berechnete Maß für d ist:

\[d = \frac{\bar{D}}{\hat{\sigma}_D}\]

wobei \(\hat{\sigma}_D\) die Schätzung der Standardabweichung der Unterschiede ist. Das in Abb. 97 gezeigte Cohens d = 1.45, was bedeutet, dass die Noten bei Examen 2 im Durchschnitt um 1.45 Standardabweichungen höher sind als die Noten bei Examen 1.

Dies ist die Version von Cohens d, die von der jamovi-Analyse Paired Samples T-Test gemeldet wird. Die einzige Schwierigkeit besteht darin, herauszufinden, ob dies das Maß ist, das Sie wollen oder nicht. In dem Maße, in dem Sie sich um die praktischen Konsequenzen Ihrer Forschung kümmern, möchten Sie oft die Effektstärke relativ zur Variation der ursprünglichen Variablen messen, nicht die Differenz (z. B. ist die Verbesserung von 1 % in Dr. Chicos Klasse ziemlich klein, wenn man sie an der natürlichen Variation von Noten zwischen verschiedenen Schülern relativiert). In diesem Fall verwenden Sie die gleichen Versionen von Cohen’s d, die Sie für einen Student- oder Welch-Test verwenden würden. Es ist nicht so einfach, dies in jamovi zu tun. Dafür müssten Sie die Struktur der Daten in der Datentabelle ändern. Ich werde hier daher nicht näher darauf eingehen.[1] Aber das Cohen’s d für diese Perspektive ist ganz anders: Es ist 0,22. Das heißt, es ist ziemlich klein relativ zur Variation der ursprünglichen Variablen.