Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Zwei Arten von Fehlentscheidungen

Bevor ich auf die Einzelheiten der Konstruktion eines statistischen Tests eingehe, ist es nützlich, die Philosophie dahinter zu verstehen. Ich habe dies bereits angedeutet, als ich auf die Ähnlichkeit zwischen einem Nullhypothesen-Signifikanztest und einem Strafprozess hinwies, aber ich sollte mich jetzt ausdrücklich dazu äußern. Im Idealfall möchten wir unseren Test so konstruieren, dass wir keine Fehler machen. Da die Welt chaotisch ist, ist das leider nie möglich. Manchmal hat man einfach wirklich Pech. Nehmen wir zum Beispiel an, Sie werfen 10 Mal hintereinander eine Münze und alle 10 Mal kommt Kopf heraus. Das scheint ein sehr starkes Indiz dafür zu sein, dass die Münze „gezinkt“ ist, aber natürlich besteht eine Chance von 1 zu 1024, dass dies auch dann passiert, wenn die Münze nicht gezinkt ist. Mit anderen Worten: Im wirklichen Leben müssen wir immer akzeptieren, dass die Möglichkeit besteht, dass wir einen Fehler gemacht haben. Folglich ist das Ziel der statistischen Hypothesentests nicht, Fehler zu eliminieren, sondern sie zu minimieren.

An dieser Stelle müssen wir etwas genauer sagen, was wir unter „Fehlern“ verstehen. Lassen Sie uns zunächst das Offensichtliche feststellen. Es ist entweder der Fall, dass die Nullhypothese wahr ist oder dass sie falsch ist, und unser Test behält entweder die Nullhypothese bei oder lehnt sie ab.[1] Wie die folgende Tabelle zeigt, könnte nach dem Ausführen des Tests und dem Treffen unserer Wahl eines von vier Dingen passiert sein:

	behalte die H₀	lehne die H₀ ab
die H:sub:`0` ist korrekt	richtige Entscheidung	Fehler (Typ I)
die H:sub:`0` ist inkorrekt	Fehler (Typ II)	richtige Entscheidung

Infolgedessen gibt es hier zwei verschiedene Arten von Fehlern. Wenn wir eine Nullhypothese ablehnen, die eigentlich korrekt ist, haben wir einen Fehler vom Typ I gemacht. Wenn wir hingegen die Nullhypothese beibehalten, obwohl sie in Wirklichkeit inkorrekt ist, haben wir einen Fehler vom Typ II gemacht.

Erinnern Sie sich noch daran, wie ich sagte, dass statistische Tests wie ein Strafprozess sind? Das habe ich ernst gemeint. In einem Strafprozess muss man „ohne begründeten Zweifel“ nachweisen, dass der Angeklagte die Straftat begangen hat. Alle Beweisregeln sollen (zumindest theoretisch) sicherstellen, dass es (fast) keine Möglichkeit gibt, einen unschuldigen Angeklagten zu Unrecht zu verurteilen. Das Verfahren soll die Rechte des Angeklagten schützen, denn, wie der englische Jurist William Blackstone sagte, ist es „besser, dass zehn Schuldige entkommen, als dass ein Unschuldiger leidet“. Mit anderen Worten: In einem Strafprozess werden die beiden Arten von Fehlern nicht gleich behandelt. Einen Unschuldigen zu bestrafen, wird als viel schlimmer angesehen, als einen Schuldigen freizulassen. Bei einem statistischen Test verhält es sich ziemlich genau so. Der wichtigste Grundsatz bei der Konzeption eines Tests ist die Kontrolle der Wahrscheinlichkeit eines Fehlers vom Typ I, um sie unter einer bestimmten Wahrscheinlichkeit zu halten. Diese Wahrscheinlichkeit, die mit α bezeichnet wird, nennt man das Signifikanzniveau des Tests. Und ich sage es noch einmal, weil es so zentral für den ganzen Aufbau ist: Ein Hypothesentest hat ein Signifikanzniveau α, wenn die Fehlerrate vom Typ I nicht größer ist als α.

Und was ist mit der Fehlerrate vom Typ II? Auch diese möchten wir unter Kontrolle halten, und wir bezeichnen diese Wahrscheinlichkeit mit β. Es ist jedoch viel gebräuchlicher, sich auf die Teststärke (power) zu beziehen, d. h. die Wahrscheinlichkeit, mit der wir eine Nullhypothese zurückweisen, wenn sie wirklich falsch ist. Diese beträgt 1 - β. Um dies zu verdeutlichen, ist hier noch einmal dieselbe Tabelle, aber mit den entsprechenden Zahlen:

	behalte die H₀	lehne die H₀ ab
die H:sub:`0` ist korrekt	1 - α (Wahrscheinlichkeit der richtigen Beibehaltung)	α (Fehlerrate vom Typ I)
die H:sub:`0` ist inkorrekt	β (Fehlerrate vom Typ II)	1 - β (Stärke des Tests)

Ein „aussagekräftiger“ (powerful) Hypothesentest ist einer, der einen kleinen Wert von β hat, während α auf einem (kleinen) gewünschten Niveau gehalten wird. Konventionell verwenden die Wissenschaftler drei verschiedene Werte für α: .05, .01 und .001. Beachten Sie die Asymmetrie hier; die Tests sind so konzipiert, dass sicherstellt, dass das α-Niveau klein gehalten wird. Es gibt aber keine entsprechende Garantie für β. Wir möchten natürlich, dass die Fehlerrate vom Typ II klein ist, und wir versuchen, Tests zu entwerfen, die sie klein halten. Aber dies ist in der Regel zweitrangig gegenüber der überwältigenden Notwendigkeit, die Fehlerrate vom Typ I zu kontrollieren. Wäre Blackstone Statistiker, hätte er vielleicht gesagt: „Es ist besser, 10 falsche Nullhypothesen aufrechtzuerhalten, als eine einzige richtige zu verwerfen“. Um ehrlich zu sein, weiß ich nicht, ob ich mit dieser Philosophie einverstanden bin. Es gibt Situationen, in denen sie meiner Meinung nach sinnvoll ist, und Situationen, in denen sie es nicht ist, aber das ist weder das eine noch das andere. Es geht darum, wie die Tests aufgebaut sind.

[1]

Eine Anmerkung zu der Sprache, die Sie verwenden, um über Hypothesentests zu sprechen. Zunächst einmal sollten Sie das Wort „beweisen“ unbedingt vermeiden. Ein statistischer Test beweist nicht, dass eine Hypothese korrekt oder inkorrekt ist. Ein Beweis setzt Gewissheit voraus, und, wie man so schön sagt, bedeutet Statistik, dass man nie sagen muss, dass man sicher ist. In diesem Punkt würde fast jeder zustimmen. Darüber hinaus gibt es jedoch eine ganze Menge Verwirrung. Einige Leute argumentieren, dass man nur Aussagen wie „die Nullhypothese zurückweisen“,„die Nullhypothese nicht zurückweisen“ oder „die Nullhypothese beibehalten“ machen darf. Nach dieser Denkweise darf man nicht sagen: „akzeptiere die Alternativhypothese“ oder „akzeptiere die Nullhypothese“. Ich persönlich denke, dass dies zu stark ist. Meiner Meinung nach wird das Prüfen von Nullhypothesen mit Karl Poppers falsifikatorischer Sichtweise des wissenschaftlichen Prozesses vermengt. Es gibt zwar Ähnlichkeiten zwischen Falsifikationismus und Nullhypothesen-Signifikanztests, aber sie sind nicht gleichwertig. Während ich es persönlich für in Ordnung halte, über die Akzeptanz einer Hypothese zu sprechen (unter der Voraussetzung, dass „Akzeptanz“ nicht unbedingt bedeutet, dass sie „korrekt“ ist, insbesondere im Fall der Nullhypothese), werden viele Leute anderer Meinung sein. Außerdem sollten Sie wissen, dass es diese besondere Eigenart gibt, damit Sie nicht unvorbereitet davon überrascht werden, wenn Sie Ihre eigenen Ergebnisse aufschreiben.