Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Voraussetzungen für die Tests

Alle statistischen Tests beruhen auf Annahmen, und es ist in der Regel eine gute Idee zu überprüfen, ob diese Voraussetzungen erfüllt sind. Für die bisher in diesem Kapitel besprochenen χ²-Tests lauten die Annahmen:

  • Die erwarteten Häufigkeiten sind ausreichend groß. Erinnern Sie sich daran, dass wir im vorigen Abschnitt gesehen haben, dass die χ²-Stichprobenverteilung auftritt, weil die Binomialverteilung einer Normalverteilung ziemlich ähnlich ist? Wie wir in Kapitel Einführung in die Wahrscheinlichkeitsrechnung besprochen haben, gilt dies nur, wenn die Anzahl der Beobachtungen ausreichend groß ist. In der Praxis bedeutet das, dass alle erwarteten Häufigkeiten einigermaßen groß sein müssen. Aber was ist eine hinreichend große Zahl? Die Meinungen gehen auseinander, aber die Standardannahme scheint zu sein, dass man im Allgemeinen alle erwarteten Häufigkeiten größer als circa 5 seien sollten. Allerdings ist es bei größeren Tabellen wahrscheinlich in Ordnung ist, wenn mindestens 80 % der erwarteten Häufigkeiten über 5 und keine unter 1 liegen. Nach dem, was ich herausfinden konnte (Cochran, 1954), werden diese Werte als grobe Richtlinien vorgeschlagen, und sie scheinen eher konservativ zu sein (Larntz, 1978).

  • Die Daten sind voneinander unabhängig. Eine versteckte Annahme des χ²-Tests ist, dass man annehmen muss, dass die Beobachtungen unabhängig sind. Das meine ich folgendermaßen. Angenommen, ich interessiere mich für den Anteil der Jungen, die in einem bestimmten Krankenhaus geboren werden. Ich gehe durch die Entbindungsstation und beobachte 20 Mädchen und nur 10 Jungen. Das scheint doch ein ziemlich überzeugender Unterschied zu sein? Später stellt sich jedoch heraus, dass ich dieselbe Station 10 Mal betreten habe und in Wirklichkeit nur 2 Mädchen und 1 Jungen gesehen habe. Weniger überzeugend? Meine ursprünglichen 30 Beobachtungen waren nicht unabhängig und entsprachen in Wirklichkeit nur 3 unabhängigen Beobachtungen. Natürlich ist dies ein extremes (und außerdem extrem dummes) Beispiel, aber es veranschaulicht das grundlegende Problem. Nicht-Unabhängigkeit „bringt die Dinge durcheinander“. Manchmal führt sie dazu, dass man die Null fälschlicherweise zurückweist, wie das alberne Krankenhausbeispiel zeigt, aber sie kann auch in die andere Richtung gehen. Um ein etwas weniger dummes Beispiel zu geben, lassen Sie uns überlegen, was passieren würde, wenn ich das Kartenexperiment etwas anders durchgeführt hätte. Anstatt 200 Personen zu bitten, sich vorzustellen, eine Karte nach dem Zufallsprinzip auszuwählen, könnte ich 50 Personen bitten, 4 Karten auszuwählen. Eine Möglichkeit wäre, dass jeder eine Herz-, eine Kreuz-, eine Karo- und eine Pikkarte auswählt (in Übereinstimmung mit der „Repräsentativitätsheuristik“; Tversky & Kahneman, 1983). Dies wäre ein höchst unzufälliges Verhalten von Menschen, aber in diesem Fall würde ich eine beobachtete Häufigkeit von 50 für alle vier Farben erhalten. In diesem Beispiel führt die Tatsache, dass die Beobachtungen nicht voneinander unabhängig sind (weil die vier Karten, die Sie auswählen, miteinander in Beziehung stehen), zum gegenteiligen Effekt, d. h. zur fälschlichen Beibehaltung der Null.

Wenn Sie sich in einer Situation befinden, in der die Unabhängigkeit verletzt ist, können Sie möglicherweise den McNemar-Test (den wir besprechen werden) oder den Cochran-Test (den wir nicht besprechen werden) verwenden. Wenn die erwarteten Zellzahlen zu klein sind, sollten Sie den exakten Fisher-Test ausprobieren. Diesen Themen widmen wir uns nun.