Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Der χ²-Unabhängigkeitstest

GUARDBOT 1:

Halt!

GUARDBOT 2:

Bist du ein Roboter oder ein Mensch?

LEELA:

Roboter… sind wir.

FRY:

Äh, ja! Nur zwei Roboter, die sich die Köpfe einschlagen! Was?

GUARDBOT 1:

Führen Sie den Test durch.

GUARDBOT 2:

Welche der folgenden Optionen würden Sie am meisten bevorzugen? A: Einen Hundewelpen, B: Eine hübsche Blume von Ihrer Liebsten oder C: Eine große, richtig formatierte Datei?

GUARDBOT 1:

Wählen Sie!

—Futurama, „Angst vor einem Bot-Planeten“

Neulich habe ich eine animierte Dokumentation gesehen, die sich mit den seltsamen Bräuchen der Eingeborenen des Planeten Chapek 9 befasste. Offenbar muss jeder Besucher, um Zugang zu ihrer Hauptstadt zu erhalten, beweisen, dass er ein Roboter und kein Mensch ist. Um festzustellen, ob ein Besucher ein Mensch ist oder nicht, fragen die Eingeborenen ihn, ob er Welpen, Blumen oder große, richtig formatierte Dateien bevorzugt. „Ziemlich clever“, dachte ich mir, „aber was ist, wenn Menschen und Roboter die gleichen Vorlieben haben? Das wäre dann wahrscheinlich kein sehr guter Test?“ Zufällig fielen mir die Testdaten in die Hände, welche die Zivilbehörden von Chapek 9 verwendet haben, um dies zu überprüfen. Wie sich herausstellte, war das, was sie taten, sehr einfach. Sie suchten sich eine Reihe von Robotern und eine Reihe von Menschen und fragten sie, was sie bevorzugten. Ich habe ihre Daten im chapek9-Datensatz gespeichert, den wir nun in jamovi laden können. Neben der Variable ID, die einzelne Personen identifiziert, gibt es zwei nominale Textvariablen nominal, species und choice. Insgesamt gibt es 180 Einträge im Datensatz, einen für jede Person (wobei sowohl Roboter als auch Menschen als „Personen“ gezählt werden), die um eine Entscheidung gebeten wurde. Konkret sind es 93 Menschen und 87 Roboter, und die überwältigende Mehrheit bevorzugt die Datendatei. Sie können dies selbst überprüfen, indem Sie jamovi nach Frequency Tables fragen, unter der Schaltfläche ExplorationDescriptives. Diese Zusammenfassung geht jedoch nicht auf die Frage ein, an der wir interessiert sind. Dazu brauchen wir eine detailliertere Beschreibung der Daten. Wir wollen uns die Daten choices aufgeschlüsselt nach species ansehen. Das heißt, wir müssen die Daten in einer Kreuztabelle darstellen (siehe Erstellen von Häufigkeitstabellen und Kreuztabellen aus Ihren Daten). In jamovi tun wir dies mit der Analyse FrequenciesContingency TablesIndependent Samples, und wir sollten eine Tabelle in etwa wie diese erhalten:

Roboter

Menschen

Insgesamt

Welpe

13

15

28

Blume

30

13

43

Daten

44

65

109

Insgesamt

87

93

180

Daraus geht eindeutig hervor, dass die überwiegende Mehrheit der Menschen die Datendatei wählte, während die Roboter in ihren Präferenzen sehr viel ausgeglichener waren. Lassen wir einmal die Frage beiseite, warum die Menschen eher die Datendatei wählen (was eher merkwürdig scheint), so müssen wir zunächst feststellen, ob die Diskrepanz zwischen den Entscheidungen der Menschen und der Roboter in der Datenmenge statistisch signifikant ist.

Aufbau unseres Hypothesentests

Wie können wir diese Daten analysieren? Da meine Forschungs-Hypothese lautet, dass „Menschen und Roboter die Frage auf unterschiedliche Weise beantworten“, wie kann ich einen Test der Nullhypothese konstruieren, dass „Menschen und Roboter die Frage auf dieselbe Weise beantworten“? Wie zuvor beginnen wir mit der Festlegung einer Notation zur Beschreibung der Daten:

Roboter

Menschen

Insgesamt

Welpe

O11

O12

R1

Blume

O21

O22

R2

Daten

O31

O32

R3

Insgesamt

C1

C2

N

In dieser Schreibweise ist Oij die Anzahl (beobachtete Häufigkeit) der Befragten der Spezies j (Roboter oder Mensch), welche die Antwort i (Welpe, Blume oder Daten) gegeben haben, als sie aufgefordert wurden, eine Wahl zu treffen. Die Gesamtzahl der Beobachtungen wird wie üblich N geschrieben. Schließlich habe ich Ri verwendet, um die Zeilensummen zu bezeichnen (z. B. ist R2 die Gesamtzahl der Lebewesen, die sich für die Blume entschieden haben), und Cj, um die Spaltensummen zu bezeichnen (z. B. ist C1 die Gesamtzahl der Roboter).[1]

Lassen Sie uns nun darüber nachdenken, was die Nullhypothese besagt. Wenn Roboter und Menschen auf dieselbe Weise auf die Frage antworten, bedeutet das, dass die Wahrscheinlichkeit, dass „ein Roboter Welpe sagt“, dieselbe ist wie die Wahrscheinlichkeit, dass „ein Mensch Welpe sagt“, und so weiter für die beiden anderen Möglichkeiten. Wenn wir also Pij verwenden, um „die Wahrscheinlichkeit zu beschreiben, dass ein Mitglied der Spezies j die Antwort i gibt“, dann lautet unsere Nullhypothese, dass:

H0:

Alle folgenden Aussagen sind wahr:

P11 = P12 (gleiche Wahrscheinlichkeit, „Welpe“ zu sagen),

P21 = P22 (gleiche Wahrscheinlichkeit, „Blume“ zu sagen), und

P31 = P32 (gleiche Wahrscheinlichkeit, „Daten“ zu sagen).

Und da die Nullhypothese besagt, dass die wahren Wahlwahrscheinlichkeiten nicht von der Spezies der Person abhängen, welche die Wahl trifft, können wir Pi auf diese Wahrscheinlichkeit beziehen, z. B. ist P1 die wahre Wahrscheinlichkeit, den Welpen zu wählen.

Als Nächstes müssen wir, ähnlich wie beim χ²-Anpassungstest, die erwarteten Häufigkeiten berechnen. Das heißt, für jede der beobachteten Zählungen Oij müssen wir herausfinden, was die Nullhypothese uns erwarten lassen würde. Bezeichnen wir diese erwartete Häufigkeit mit Eij. Diesmal ist die Berechnung ein bisschen schwieriger. Wenn es insgesamt Cj Versuchsteilnehmer gibt, die der Spezies j angehören, und die wahre Wahrscheinlichkeit, dass irgendjemand (unabhängig von der Spezies) die Option i wählt, ist Pi, dann ist die erwartete Häufigkeit:

Eij = Cj · Pi

Nun, das ist alles schön und gut, aber wir haben ein Problem. Im Gegensatz zu der Situation, die wir mit dem χ²-Anpassungstest hatten, gibt die Nullhypothese keinen bestimmten Wert für Pi vor. Das ist etwas, das wir aus den Daten schätzen müssen! Glücklicherweise ist das ziemlich einfach. Wenn 28 von 180 Personen die Blumen gewählt haben, dann ist eine natürliche Schätzung für die Wahrscheinlichkeit, dass die Blumen gewählt wurden, 28 / 180, d.h. ungefähr 0,16. Mathematisch ausgedrückt bedeutet dies, dass unsere Schätzung für die Wahrscheinlichkeit der Wahl der Option i einfach die Zeilensumme geteilt durch den Gesamtumfang der Stichprobe ist:

\[\hat{P}_i = \frac{R_i}{N}\]

Daher ergibt sich die erwartete Häufigkeit als das Produkt (d. h. die Multiplikation) der Zeilensumme und der Spaltensumme, geteilt durch die Gesamtzahl der Beobachtungen:[2]

Êij = (Ri · Cj) / N

Nachdem wir nun herausgefunden haben, wie man die erwarteten Häufigkeiten berechnet, ist es ein Leichtes, eine Teststatistik zu definieren, und zwar nach genau derselben Strategie, die wir beim χ²-Anpassungstest verwendet haben. Tatsächlich ist es sogar annähernd dieselbe Statistik.

Für eine Kreuztabelle mit r Zeilen und c Spalten lautet die Gleichung, die unsere χ²-Statistik definiert

\[\chi^2 = \sum_{i=1}^r\sum_{j=1}^c \frac{({E}_{ij} - O_{ij})^2}{{E}_{ij}}\]

Der einzige Unterschied besteht darin, dass ich zwei Summenzeichen einfügen muss (d.h. Σ), um anzuzeigen, dass wir sowohl über Zeilen als auch über Spalten summieren.

Wie zuvor deuten große Werte von χ² darauf hin, dass die Nullhypothese die Daten schlecht beschreibt, während kleine Werte von χ² darauf hindeuten, dass sie die Daten gut wiedergibt. Daher werden wir, wie beim letzten Mal, die Nullhypothese verwerfen, wenn χ² zu groß ist.

Es überrascht nicht, dass diese Statistik χ²-verteilt ist. Alles, was wir tun müssen, ist herauszufinden, wie viele Freiheitsgrade beteiligt sind, was eigentlich nicht allzu schwer ist. Wie ich bereits erwähnt habe, kann man sich die Freiheitsgrade (normalerweise) so vorstellen, dass sie der Anzahl der zu analysierenden Datenpunkte abzüglich der Anzahl der Beschränkungen entsprechen. Eine Kreuztabelle mit r Zeilen und c Spalten enthält insgesamt r · c beobachtete Häufigkeiten, das ist also die Gesamtzahl der Beobachtungen. Was ist mit den Beschränkungen? Hier ist es etwas komplizierter. Die Antwort ist immer die gleiche

df = (r - 1)(c - 1)

aber die Erklärung, warum die Freiheitsgrade diesen Wert annehmen, ist je nach Versuchsplan unterschiedlich. Nehmen wir einmal an, dass wir wirklich vorhatten, genau 87 Roboter und 93 Menschen zu befragen (die Spaltensummen wurden vom Versuchsleiter festgelegt), aber die Zeilensummen frei variieren ließen (Zeilensummen sind Zufallsvariablen). Lassen Sie uns über die hier geltenden Einschränkungen (constraints) nachdenken. Nun, da wir die Spaltensummen absichtlich durch den Experimentator festgelegt haben, haben wir hier c Einschränkungen. Aber es gibt noch mehr als das. Erinnern Sie sich daran, dass unsere Nullhypothese einige freie Parameter hatte (d. h. wir mussten die Pi-Werte schätzen)? Auch die spielen eine Rolle. Ich werde in diesem Buch nicht erklären, warum, aber jeder freie Parameter in der Nullhypothese ist so etwas wie eine zusätzliche Einschränkung. Wie viele dieser Parameter gibt es also? Da sich diese Wahrscheinlichkeiten zu 1 summieren müssen, gibt es nur r - 1 davon. Unsere gesamten Freiheitsgrade sind also:

\[\begin{split}\begin{array}{rcl} df &=& \mbox{(Anzahl der Beobachtungen)} - \mbox{(Anzahl der Einschränkungen)} \\ &=& (rc) - (c + (r-1)) \\ &=& rc - c - r + 1 \\ &=& (r - 1)(c - 1) \end{array}\end{split}\]

Oder nehmen wir an, dass der Versuchsleiter nur die Gesamtgröße der Stichprobe festgelegt hat N. Das heißt, wir haben die ersten 180 Personen befragt, die wir gesehen haben, und es hat sich herausgestellt, dass 87 Roboter und 93 Menschen waren. Dieses Mal wäre unsere Argumentation etwas anders, würde uns aber immer noch zur gleichen Antwort führen. Unsere Nullhypothese hat immer noch r - 1 freie Parameter, die den Wahlwahrscheinlichkeiten entsprechen, aber sie hat jetzt zusätzlich c - 1 freie Parameter, die den Spezies-Wahrscheinlichkeiten entsprechen, weil wir auch die Wahrscheinlichkeit schätzen müssen, dass sich eine zufällig ausgewählte Person als Roboter entpuppt.[3] Schließlich, da wir die Gesamtzahl der Beobachtungen N festgelegt haben, ist das eine weitere Einschränkung. Jetzt haben wir also rc Beobachtungen und (c - 1) + (r - 1) + 1 Beschränkungen. Was ergibt das?

\[\begin{split}\begin{array}{rcl} df &=& \mbox{(Anzahl der Beobachtungen)} - \mbox{(Anzahl der Einschränkungen)} \\ &=& rc - ( (c-1) + (r-1) + 1) \\ &=& rc - c - r + 1 \\ &=& (r - 1)(c - 1) \end{array}\end{split}\]

Erstaunlich.

Durchführen des Tests in jamovi

Jetzt, da wir wissen, wie der Test funktioniert, wollen wir uns ansehen, wie er in jamovi durchgeführt wird. Obwohl es verlockend wäre, Sie durch die langwierigen Berechnungen zu führen, um Sie zu zwingen, es auf eine kompliziertere Weise zu lernen, so denke ich, dass es wenig Sinn ergibt. Ich habe Ihnen im letzten Abschnitt gezeigt, wie man den χ²-Anpassungstest Schritt-für-Schritt durchführt. Da der Unabhängigkeitstest konzeptionell nicht so unterschiedlich ist, werden Sie wenig Neues lernen, wenn Sie ihn schrittweise durchführen. Stattdessen zeige ich Ihnen nur den einfachen Weg. Nachdem Sie den Test in jamovi durchgeführt haben (Frequencies - Contingency Tables - Independent Samples), brauchen Sie nur auf die χ²-Statistik unterhalb die Kreuztabelle im jamovi-Ergebnisfenster zu schauen. Diese zeigt einen χ²-Statistikwert von 10,72, mit df = 2 und einen p-Wert = 0,005.

Das war einfach, nicht wahr! Sie können jamovi auch bitten, Ihnen die erwarteten Anzahlen anzuzeigen - klicken Sie einfach auf die Checkbox für Expected Counts in den Optionen Cells und die erwarteten Anzahlen werden in der Kreuztabelle angezeigt. Zusätzlich wäre ein Maß für die Effektstärke hilfreich. Wir setzen die Checkbox Phi and Cramer’s V in den Optionen Statistics und erhalten einen Wert für Cramer’s V von 0,24. Wir werden gleich noch etwas mehr darüber sprechen.

Diese Ausgabe gibt uns genügend Informationen, um das Ergebnis zu berichten:

Pearson’s χ² ergab einen signifikanten Zusammenhang zwischen Spezies und Wahl (χ²(2) = 10,7, p < 0,01). Die Roboter scheinen eher zu sagen, dass sie Blumen bevorzugen, die Menschen dagegen eher, dass sie Daten bevorzugen.

Beachten Sie, dass ich wieder einmal ein wenig Interpretation geliefert habe, um dem menschlichen Leser zu helfen, zu verstehen, was in den Daten vor sich geht. Später im Abschnitt „Diskussion“ würde ich etwas mehr Kontext liefern. Um den Unterschied zu verdeutlichen, würde ich später wahrscheinlich folgendes sagen:

Die Tatsache, dass Menschen offenbar eine stärkere Vorliebe für Daten-Dateien haben als Roboter, ist etwas kontraintuitiv. Im Kontext betrachtet, ergibt dies jedoch einen gewissen Sinn, da die Zivilbehörde auf Chapek 9 leider dazu neigt, Menschen, die identifiziert werden konnten, zu töten und zu sezieren. Daher ist es sehr wahrscheinlich, dass die menschlichen Teilnehmer nicht ehrlich auf die Frage geantwortet haben, um potenziell unerwünschte Konsequenzen zu vermeiden. Dies sollte als erhebliche methodische Schwäche betrachtet werden.

Dies kann als ein ziemlich extremes Beispiel für einen Reaktivitätseffekt eingestuft werden. Offensichtlich ist das Problem in diesem Fall so gravierend, dass die Studie als Instrument zum Verständnis der unterschiedlichen Präferenzen von Menschen und Robotern mehr oder weniger wertlos ist. Ich hoffe jedoch, dass dies den Unterschied zwischen einem statistisch signifikanten Ergebnis (unsere Nullhypothese wird zugunsten der Alternative verworfen) und einem Ergebnis von wissenschaftlichem Wert (die Daten sagen uns aufgrund eines großen methodischen Fehlers nichts Interessantes über unsere Forschungshypothese) verdeutlicht.

Nachtrag

Später fand ich heraus, dass die Daten erfunden waren und ich Zeichentrickfilme geguckt habe, statt zu arbeiten.