Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Post-hoc-Tests und die Korrektur für multiple Paarvergleiche

Jedes Mal, wenn Sie eine ANOVA mit mehr als zwei Gruppen durchführen und einen signifikanten Effekt feststellen, werden Sie sich wahrscheinlich zuerst fragen, welche Gruppen sich denn nun tatsächlich voneinander unterscheiden. In unserem Beispiel mit den Medikamenten war unsere Nullhypothese, dass alle drei Medikamente (Placebo, Anxifree und Joyzepam) genau die gleiche Wirkung auf die Stimmung haben. Aber wenn Sie darüber nachdenken, behauptet die Nullhypothese eigentlich drei verschiedene Dinge auf einmal. Genauer gesagt behauptet sie, dass:

  • Das Medikament Ihres Konkurrenten (Anxifree) ist nicht besser als ein Placebo (d. h. µA = µP)

  • Ihr Medikament (Joyzepam) ist nicht besser als ein Placebo (d. h., µJ = µP)

  • Anxifree und Joyzepam sind gleich wirksam (d. h. µJ = µA)

Wenn eine dieser drei Behauptungen falsch ist, dann ist auch die Nullhypothese falsch. Da wir nun also unsere Nullhypothese verworfen haben, denken wir, dass zumindest eine dieser Behauptungen nicht wahr ist. Aber welche? Alle drei Thesen sind von Interesse. Da Sie wissen wollen, ob Ihr neues Medikament Joyzepam besser ist als ein Placebo, wäre es sicherlich auch schön zu wissen, wie gut es im Vergleich zu einer bestehenden kommerziellen Alternative (d. h. Anxifree) abschneidet. Es wäre sogar nützlich, die Wirksamkeit von Anxifree im Vergleich zu einem Placebo zu überprüfen. Selbst wenn Anxifree bereits von anderen Forschern ausführlich gegen Placebos getestet wurde, kann es sehr sinnvoll sein, zu überprüfen, ob Ihre Studie ähnliche Ergebnisse liefert wie frühere Arbeiten.

Wenn wir die Nullhypothese anhand dieser drei unterschiedlichen Aussagen charakterisieren, wird deutlich, dass es acht mögliche „Zustände der Welt“ gibt, zwischen denen wir unterscheiden müssen:

Möglichkeit:

ist µP = µA

ist µP = µJ

ist µA = µJ

Welche Hypothese?

1

Null

2

Alternativhypothese

3

Alternativhypothese

4

Alternativhypothese

5

Alternativhypothese

6

Alternativhypothese

7

Alternativhypothese

8

Alternativhypothese

Indem wir die Nullhypothese ablehnen, haben wir entschieden, dass wir nicht glauben, dass # 1 der wahre Zustand der Welt ist. Die nächste Frage, die wir uns stellen müssen, ist, welche der anderen sieben Möglichkeiten wir für richtig halten. In dieser Situation ist es meist hilfreich, sich die Daten anzusehen. Wenn wir uns zum Beispiel die Diagramme in Abb. 130 ansehen, ist es verlockend, zu dem Schluss zu kommen, dass Joyzepam besser ist als das Placebo und besser als Anxifree, aber es gibt keinen wirklichen Unterschied zwischen Anxifree und dem Placebo. Wenn wir jedoch eine klarere Antwort auf diese Frage erhalten wollen, könnte es hilfreich sein, einige Tests durchzuführen.

Durchführen von „paarweisen“ t-tests

Wie könnten wir unser Problem lösen? Da wir drei verschiedene Paare von Mittelwerten haben (Placebo versus Anxifree, Placebo versus Joyzepam und Anxifree versus Joyzepam), die wir vergleichen wollen, könnten wir drei verschiedene t-Tests durchführen und schauen, was passiert. Dies ist in jamovi einfach zu machen. Gehen Sie zu den Optionen ANOVAPost Hoc Tests, verschieben Sie die Variable drug in das Feld auf der rechten Seite und klicken Sie dann auf die Checkbox No correction. Dadurch wird eine übersichtliche Tabelle erstellt, die alle paarweisen t-Testvergleiche zwischen den drei Stufen der Variable drug zeigt, wie in Abb. 133.

Nicht-korrigierte paarweise *t*-Tests als Post-hoc-Vergleiche in jamovi

Abb. 133 Nicht-korrigierte paarweise t-Tests als Post-hoc-Vergleiche in jamovi

Korrekturen für multiples Testen

Im vorigen Abschnitt habe ich angedeutet, dass es ein Problem gibt, wenn man einfach viele t-Tests durchführt. Die Befürchtung ist, dass wir beim Durchführen dieser Analysen auf eine „Angeltour“ („fishing expedition“) gehen. Wir führen viele, viele Tests ohne viel theoretische Anleitung durch, in der Hoffnung, dass einige von ihnen signifikant sind. Diese Art der theorielosen Suche nach Gruppenunterschieden wird als post-hoc-Analyse bezeichnet („post-hoc“ ist lateinisch für „danach“).[1]

Es ist in Ordnung, Post-hoc-Analysen durchzuführen, aber beim Durchführen ist Sorgfalt erforderlich. Zum Beispiel sollte die Analyse, die ich im vorherigen Abschnitt durchgeführt habe, vermieden werden, da jeder individuelle t-Test eine Typ-I-Fehlerrate von 5% hat (d.h. α = 0,05) und ich habe drei dieser Tests durchgeführt. Stellen Sie sich vor, was passiert wäre, wenn meine ANOVA 10 verschiedene Gruppen umfasst hätte, und ich hätte beschlossen, 45 „post-hoc“ t-Tests durchzuführen, um herauszufinden, welche dieser Gruppen sich signifikant voneinander unterscheiden. Sie würden in einem solchen Fall erwarten, dass 2 oder 3 von ihnen rein zufällig signifikant sind (5 % von 45). Wie wir in Kapitel Das Überprüfen von Hypothesen gesehen haben, ist das zentrale Organisationsprinzip hinter Nullhypothesentests, dass wir versuchen, unsere Typ-I-Fehlerrate zu kontrollieren. Aber jetzt, da ich viele t-Tests gleichzeitig durchführe, um die Quelle der Effekte meiner ANOVA-Ergebnisse zu bestimmen, ist meine tatsächliche Typ-I-Fehlerrate über diese ganze Familie von Tests völlig außer Kontrolle geraten.

Die übliche Lösung für dieses Problem besteht darin, eine Anpassung des p-Werts einzuführen, die darauf abzielt, die Gesamtfehlerrate über die „Familie“ von Tests hinweg zu kontrollieren (Shaffer, 1995). Eine Anpassung, die normalerweise (aber nicht immer) angewendet wird, wenn man Post-hoc-Analysen durchführt, wird oft als Korrektur für multiple Paarvergleiche (oder manchmal als „simultane Inferenz“) bezeichnet. Auf jeden Fall gibt es verschiedene Möglichkeiten, eine solche Korrektur vorzunehmen. Ich werde einige davon in diesem Abschnitt besprechen, und andere die bei der faktoriellen ANOVA verwendet werden im Abschnitt Post-hoc-Tests dieses Kapitels. Sie sollten sich aber darüber im Klaren sein, dass es viele weitere Methoden gibt (vgl. Hsu, 1996).

Bonferroni-Korrektur

Die einfachste dieser Anpassungen wird als Bonferroni-Korrektur (Dunn, 1961) bezeichnet und ist in der Tat sehr, sehr einfach. Angenommen, meine Post-hoc-Analyse besteht aus m separaten Tests, und ich möchte sicherstellen, dass die Gesamtwahrscheinlichkeit, überhaupt irgendeinen Typ-I-Fehler zu machen, höchstens α beträgt.[2] Wenn ja, dann erfordert die Bonferroni-Korrektur „multiplizieren Sie Ihre p-Werte mit m“. Wenn wir p als ursprünglichen p-Wert bezeichnen und pj den korrigierten Wert repräsentiert, dann besagt die Bonferroni-Korrektur:

pj = m × p

Wenn Sie also die Bonferroni-Korrektur verwenden, würden Sie die Nullhypothese ablehnen, wenn pj < α. Die Logik hinter dieser Korrektur ist sehr einfach. Wir führen m verschiedene Tests durch. Wenn wir es also so annehmen, dass jeder Test eine Typ-I-Fehlerrate von höchstens α / m haben darf, dann darf die gesamte Typ-I-Fehlerrate über alle Tests hinweg nicht größer sein als α. Das ist so einfach, dass der Autor in seiner Originalarbeit schreibt:

Die hier vorgeschlagene Methode ist so einfach und so allgemein, dass ich sicher bin, dass sie schon früher verwendet wurde. Ich finde jedoch keine Referenz und kann daher nur den Schluss ziehen, dass vielleicht gerade seine Einfachheit Statistiker davon abgehalten hat, zu erkennen, dass es in vielen Situationen eine sehr gute Methode ist (Dunn, 1961, S. 52-53).

Um die Bonferroni-Korrektur in jamovi zu verwenden, setzen Sie einfach die Bonferroni-Checkbox in den Correction-Optionen. Sie werden sehen, dass eine weitere Spalte zur ANOVA-Ergebnistabelle hinzugefügt wird, welche die mittels Bonferroni-Korrektur adjustierten p- Werte (Abb. 133) enthält. Vergleichen wir diese drei p-Werte mit denen der unkorrigierten, paarweisen t-Tests, wird deutlich, dass jamovi sie lediglich mit 3 multipliziert hat.

Holm-Korrektur

Obwohl die Bonferroni-Korrektur die einfachste Korrektur ist, ist sie normalerweise nicht die beste. Eine Methode, die stattdessen häufig verwendet wird, ist die Holm-Korrektur (Holm, 1979). Die Idee hinter der Holm-Korrektur ist, so zu tun, als würden Sie die Tests nacheinander durchführen, beginnend mit dem kleinsten p-Wert und von dort schrittweise zum größten. Für den j-ten der p-Werte ist die Anpassung entweder

pj = j × pj

(d.h. der größte p-Wert bleibt unverändert, der zweitgrößte p-Wert wird verdoppelt, der drittgrößte p-Wert verdreifacht usw.), oder

pj = pj + 1

je nachdem, welcher größer ist. Das mag ein wenig verwirrend klingen, also gehen wir schrittweise vor. Hier ist, was die Holm-Korrektur tut. Zuerst sortieren Sie alle Ihre p-Werte, vom kleinsten zum größten. Für den kleinsten p-Wert multiplizieren Sie ihn nur mit m, und fertig. Für alle anderen p-Werte ist es ein zweistufiger Prozess. Wenn Sie beispielsweise zum zweitkleinsten p-Wert wechseln, multiplizieren Sie ihn zuerst mit m - 1. Wenn dies eine Zahl erzeugt, die größer als der adjustierte p-Wert ist, den Sie beim vorherigen Schritt erhalten haben, dann behalten Sie ihn. Aber wenn er kleiner als der vorherige ist, dann kopieren Sie den vorherigen p-Wert. Um zu veranschaulichen, wie dies funktioniert, betrachten Sie die folgende Tabelle, welche die Berechnungen einer Holm-Korrektur für fünf p-Werte zeigt:

ursprünglicher p-Rang

j

p × j

Holm p

.001

5

0.005

0.005

.005

4

0.020

0.020

.019

3

0.057

0.057

.022

2

0.044

0.057

.103

1

0.103

0.103

Hoffentlich macht das die Sache klar.

Obwohl sie etwas schwieriger zu berechnen ist, hat die Holm-Korrektur einige vorteilhafte Eigenschaften. Sie ist leistungsstärker als Bonferroni-Korrektur (d. h. sie hat eine niedrigere Typ-II-Fehlerrate). Gleichzeitig hat sie, so kontraintuitiv das auch scheinen mag, die gleiche Typ-I-Fehlerrate. Folglich gibt es in der Praxis nie einen Grund, die einfachere Bonferroni-Korrektur zu verwenden, da die etwas aufwändigere Holm-Korrektur diese immer übertrifft. Aus diesem Grund sollte die Holm-Korrektur Ihre Standardwahl bei der Korrektur für multiple Paarvergleiche sein. Abb. 133 zeigt auch die Holm-korrigierten p-Werte und, wie Sie sehen können, ist der größte p-Wert (entspricht dem Vergleich zwischen Anxifree und dem Placebo) unverändert. Mit einem Wert von 0,15 ist es genau der gleiche Wert, den wir ursprünglich erhalten haben, als wir überhaupt keine Korrektur angewendet haben. Im Gegensatz dazu wurde der kleinste p-Wert (joyzepam versus placebo) mit drei multipliziert.

Berichten von Post-Hoc-Tests

Nachdem Sie eine Post-hoc-Analyse durchgeführt haben, um zu bestimmen, welche Gruppen sich signifikant voneinander unterscheiden, können Sie das Ergebnis folgendermaßen berichten:

Post-hoc-Tests (beim Verwenden der Holm-Korrektur für p) zeigten, dass Joyzepam eine signifikant größere Stimmungsänderung hervorrief als sowohl Anxifree (p = 0,001) als auch das Placebo (p = 9,0 · 10:sup:‘-5‘). Es fand sich aber keine Evidenz dafür, dass Anxifree besser abschneidet als das Placebo (p = 0,15).

Wenn Sie es nicht mögen, genaue p-Werte anzugeben, dann würden Sie diese Zahlen in p < 0,001‘, p < 0,01 bzw. p > 0,05 ändern. So oder so, das Wichtigste ist, dass Sie angeben, dass Sie die Holm-Korrektur verwendet haben, um die p-Werte anzupassen. Und natürlich gehe ich davon aus, dass Sie an anderer Stelle im Artikel die relevanten deskriptiven Statistiken (d.h. die Gruppenmittelwerte und Standardabweichungen) aufgenommen haben, da diese p-Werte allein nicht besonders informativ sind.