Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Zwei Arten von Fehlentscheidungen

Bevor ich auf die Einzelheiten der Konstruktion eines statistischen Tests eingehe, ist es nützlich, die Philosophie dahinter zu verstehen. Ich habe dies bereits angedeutet, als ich auf die Ähnlichkeit zwischen einem Nullhypothesen-Signifikanztest und einem Strafprozess hinwies, aber ich sollte mich jetzt ausdrücklich dazu äußern. Im Idealfall möchten wir unseren Test so konstruieren, dass wir keine Fehler machen. Da die Welt chaotisch ist, ist das leider nie möglich. Manchmal hat man einfach wirklich Pech. Nehmen wir zum Beispiel an, Sie werfen 10 Mal hintereinander eine Münze und alle 10 Mal kommt Kopf heraus. Das scheint ein sehr starkes Indiz dafür zu sein, dass die Münze „gezinkt“ ist, aber natürlich besteht eine Chance von 1 zu 1024, dass dies auch dann passiert, wenn die Münze nicht gezinkt ist. Mit anderen Worten: Im wirklichen Leben müssen wir immer akzeptieren, dass die Möglichkeit besteht, dass wir einen Fehler gemacht haben. Folglich ist das Ziel der statistischen Hypothesentests nicht, Fehler zu eliminieren, sondern sie zu minimieren.

An dieser Stelle müssen wir etwas genauer sagen, was wir unter „Fehlern“ verstehen. Lassen Sie uns zunächst das Offensichtliche feststellen. Es ist entweder der Fall, dass die Nullhypothese wahr ist oder dass sie falsch ist, und unser Test behält entweder die Nullhypothese bei oder lehnt sie ab.[1] Wie die folgende Tabelle zeigt, könnte nach dem Ausführen des Tests und dem Treffen unserer Wahl eines von vier Dingen passiert sein:

behalte die H0

lehne die H0 ab

die H:sub:`0` ist korrekt

richtige Entscheidung

Fehler (Typ I)

die H:sub:`0` ist inkorrekt

Fehler (Typ II)

richtige Entscheidung

Infolgedessen gibt es hier zwei verschiedene Arten von Fehlern. Wenn wir eine Nullhypothese ablehnen, die eigentlich korrekt ist, haben wir einen Fehler vom Typ I gemacht. Wenn wir hingegen die Nullhypothese beibehalten, obwohl sie in Wirklichkeit inkorrekt ist, haben wir einen Fehler vom Typ II gemacht.

Erinnern Sie sich noch daran, wie ich sagte, dass statistische Tests wie ein Strafprozess sind? Das habe ich ernst gemeint. In einem Strafprozess muss man „ohne begründeten Zweifel“ nachweisen, dass der Angeklagte die Straftat begangen hat. Alle Beweisregeln sollen (zumindest theoretisch) sicherstellen, dass es (fast) keine Möglichkeit gibt, einen unschuldigen Angeklagten zu Unrecht zu verurteilen. Das Verfahren soll die Rechte des Angeklagten schützen, denn, wie der englische Jurist William Blackstone sagte, ist es „besser, dass zehn Schuldige entkommen, als dass ein Unschuldiger leidet“. Mit anderen Worten: In einem Strafprozess werden die beiden Arten von Fehlern nicht gleich behandelt. Einen Unschuldigen zu bestrafen, wird als viel schlimmer angesehen, als einen Schuldigen freizulassen. Bei einem statistischen Test verhält es sich ziemlich genau so. Der wichtigste Grundsatz bei der Konzeption eines Tests ist die Kontrolle der Wahrscheinlichkeit eines Fehlers vom Typ I, um sie unter einer bestimmten Wahrscheinlichkeit zu halten. Diese Wahrscheinlichkeit, die mit α bezeichnet wird, nennt man das Signifikanzniveau des Tests. Und ich sage es noch einmal, weil es so zentral für den ganzen Aufbau ist: Ein Hypothesentest hat ein Signifikanzniveau α, wenn die Fehlerrate vom Typ I nicht größer ist als α.

Und was ist mit der Fehlerrate vom Typ II? Auch diese möchten wir unter Kontrolle halten, und wir bezeichnen diese Wahrscheinlichkeit mit β. Es ist jedoch viel gebräuchlicher, sich auf die Teststärke (power) zu beziehen, d. h. die Wahrscheinlichkeit, mit der wir eine Nullhypothese zurückweisen, wenn sie wirklich falsch ist. Diese beträgt 1 - β. Um dies zu verdeutlichen, ist hier noch einmal dieselbe Tabelle, aber mit den entsprechenden Zahlen:

behalte die H0

lehne die H0 ab

die H:sub:`0` ist korrekt

1 - α
(Wahrscheinlichkeit der richtigen Beibehaltung)
α
(Fehlerrate vom Typ I)

die H:sub:`0` ist inkorrekt

β
(Fehlerrate vom Typ II)
1 - β
(Stärke des Tests)

Ein „aussagekräftiger“ (powerful) Hypothesentest ist einer, der einen kleinen Wert von β hat, während α auf einem (kleinen) gewünschten Niveau gehalten wird. Konventionell verwenden die Wissenschaftler drei verschiedene Werte für α: .05, .01 und .001. Beachten Sie die Asymmetrie hier; die Tests sind so konzipiert, dass sicherstellt, dass das α-Niveau klein gehalten wird. Es gibt aber keine entsprechende Garantie für β. Wir möchten natürlich, dass die Fehlerrate vom Typ II klein ist, und wir versuchen, Tests zu entwerfen, die sie klein halten. Aber dies ist in der Regel zweitrangig gegenüber der überwältigenden Notwendigkeit, die Fehlerrate vom Typ I zu kontrollieren. Wäre Blackstone Statistiker, hätte er vielleicht gesagt: „Es ist besser, 10 falsche Nullhypothesen aufrechtzuerhalten, als eine einzige richtige zu verwerfen“. Um ehrlich zu sein, weiß ich nicht, ob ich mit dieser Philosophie einverstanden bin. Es gibt Situationen, in denen sie meiner Meinung nach sinnvoll ist, und Situationen, in denen sie es nicht ist, aber das ist weder das eine noch das andere. Es geht darum, wie die Tests aufgebaut sind.