Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Der p-Wert eines Tests

In gewissem Sinne ist unser Hypothesentest nun vollständig. Wir haben eine Teststatistik konstruiert, ihre Stichprobenverteilung für den Fall, dass die Nullhypothese wahr ist, ermittelt und dann den kritischen Bereich für den Test ermittelt. Allerdings habe ich die wichtigste Zahl von allen weggelassen, den p-Wert. Wir widmen wir uns jetzt deshalb diesem Thema. Es gibt zwei etwas unterschiedliche Arten, einen p-Wert zu interpretieren: Eine vorgeschlagen von Sir Ronald Fisher, die andere von Jerzy Neyman. Beide Versionen sind legitim, obwohl sie sehr unterschiedliche Denkweisen über Hypothesentests widerspiegeln. Die meisten einführenden Lehrbücher tendieren dazu, nur Fishers Version wiederzugeben, aber ich finde das ein bisschen schade. Meiner Meinung nach ist Neymans Version reiner und spiegelt die Logik des Nullhypothesentests besser wider. Vielleicht sind Sie aber anderer Meinung: Deshalb habe ich beide Versionen aufgenommen. Ich beginne mit der Version von Neyman.

Eine weichere Sichtweise auf die Entscheidungsfindung

Ein Problem bei dem von mir beschriebenen Hypothesentestverfahren ist, dass es keinen Unterschied zwischen einem „kaum signifikanten“ und einem „hoch signifikanten“ Ergebnis macht. In meiner ESP-Studie zum Beispiel lagen die Daten, die ich erhalten habe, nur knapp innerhalb des kritischen Bereichs, so dass ich zwar einen signifikanten Effekt erhalten habe, aber es war eine ziemlich knappe Sache. Nehmen wir dagegen an, ich hätte eine Studie durchgeführt, bei der X = 97 von meinen N = 100 Teilnehmern die richtige Antwort gegeben hätten. Das wäre natürlich auch signifikant, aber mit einem viel größeren Abstand, so dass es hier wirklich keine Unklarheiten gibt. Das Verfahren, das ich beschrieben habe, macht keinen Unterschied zwischen den beiden. Wenn ich die Standardkonvention von α = 0,05 als akzeptable Typ-I-Fehlerrate annehme, dann sind beide Ergebnisse signifikant.

An dieser Stelle kommt der p-Wert ins Spiel. Um zu verstehen, wie er funktioniert, nehmen wir an, dass wir viele Hypothesentests mit demselben Datensatz durchgeführt haben, aber mit einem jeweils anderen Wert von α. Wenn wir dies für meine ursprünglichen ESP-Daten tun, erhalten wir etwa folgendes Ergebnis

Wert von α

0.05

0.04

0.03

0.02

0.01

Die Nullhypothese verwerfen?

Ja

Ja

Ja

Nein

Nein

Wenn wir die ESP-Daten (X = 62 Erfolge aus N = 100 Beobachtungen) mit α -Werten von 0,03 und mehr testen, wird die Nullhypothese abgelehnt. Bei Werten von α von 0,02 und darunter wird die Nullhypothese immer beibehalten. Daher muss es irgendwo zwischen 0,02 und 0,03 einen kleinsten Wert von α geben, der es uns ermöglicht, die Nullhypothese für diese Daten zu verwerfen. Dies ist der Wert p. Es stellt sich heraus, dass die ESP-Daten p = 0,021 haben. Kurz und gut,

p ist definiert als die kleinste Fehlerrate vom Typ I (α), die man in Kauf nehmen würde, wenn die Nullhypothese abgelehnt werden soll.

Wenn sich herausstellt, dass p eine Fehlerrate beschreibt, die Sie nicht tolerieren wollen, dann müssen Sie die Nullhypothese beibehalten. Wenn Sie sich mit einer Fehlerrate von p abfinden können, ist es in Ordnung, die Nullhypothese zugunsten Ihrer Alternativhypothese zu verwerfen.

In der Tat beschreibt p alle möglichen Hypothesentests, die Sie hätten durchführen können, und zwar für alle möglichen α-Werte. Dies hat zur Folge, dass unser Entscheidungsprozess „aufgeweicht“ wird. Bei den Tests, bei denen p ≤ α ist, hätten Sie die Nullhypothese verworfen, während Sie bei den Tests, bei denen p > α ist, die Nullhypothese beibehalten hätten. In meiner ESP-Studie habe ich X = 62 erhalten, und folglich habe ich p = 0,021 erhalten. Die Fehlerrate, die ich hinnehmen muss, beträgt also 2,1 %. Nehmen wir dagegen an, mein Experiment hätte X = 97 ergeben. Was passiert jetzt mit meinem Wert p? Diesmal ist er auf p = 1,36 · 10-25 geschrumpft, was eine winzig kleine[1] Typ-I-Fehlerrate ist. Im zweiten Fall wäre ich in der Lage, die Nullhypothese mit viel größerer Sicherheit abzulehnen, weil ich nur „bereit“ sein muss, eine Fehlerrate vom Typ I von etwa 1 zu 10 Quadrillionen (10 Billionen · 1 Billion) zu tolerieren, um meine Entscheidung zur Ablehnung zu rechtfertigen.

Die Wahrscheinlichkeit von Extremdaten

Die zweite Definition des p-Wertes stammt von Sir Ronald Fisher und wird in den meisten einführenden Statistiklehrbüchern verwendet. Haben Sie bemerkt, dass der von mir konstruierte kritische Bereich den Ausläufern (d. h. den Extremwerten) der Stichprobenverteilung entsprach? Das ist kein Zufall, fast alle „guten“ Tests haben diese Eigenschaft (gut im Sinne des Minimierens unserer Typ-II-Fehlerrate, β). Der Grund dafür ist, dass ein guter kritischer Bereich fast immer denjenigen Werten der Teststatistik entspricht, die am wenigsten wahrscheinlich zu beobachten sind, wenn die Nullhypothese wahr ist. Wenn diese Regel zutrifft, können wir den p-Wert als die Wahrscheinlichkeit definieren, dass wir eine Teststatistik beobachtet hätten, die mindestens so extrem ist wie die, die wir tatsächlich erhalten haben. Mit anderen Worten: Wenn die Daten gemäß der Nullhypothese extrem unplausibel sind, dann ist die Nullhypothese wahrscheinlich falsch.

Ein häufiger Fehler

Sie sehen also, dass es zwei recht unterschiedliche, aber legitime Möglichkeiten gibt, den Wert p zu interpretieren: Eine auf der Grundlage von Neymans Ansatz zur Hypothesenprüfung, die andere auf der Grundlage von Fishers Ansatz. Leider gibt es noch eine dritte Erklärung, die manchmal gegeben wird, vor allem, wenn man zum ersten Mal Statistik lernt, und sie ist völlig falsch. Dieser falsche Ansatz besteht darin, den p-Wert als „die Wahrscheinlichkeit, dass die Nullhypothese wahr ist“ zu bezeichnen. Das ist eine intuitiv ansprechende Denkweise, die aber in zweierlei Hinsicht falsch ist. Erstens ist das Testen von Nullhypothesen ein frequentistisches Werkzeug, und der frequentistische Ansatz zur Wahrscheinlichkeit erlaubt es nicht, der Nullhypothese Wahrscheinlichkeiten zuzuordnen. Nach dieser Auffassung von Wahrscheinlichkeit ist die Nullhypothese entweder wahr oder nicht, sie kann nicht mit einer „Wahrscheinlichkeit von 5 %“ wahr sein. Zweitens: Selbst im Rahmen des Bayesschen Ansatzes, bei dem man den Hypothesen Wahrscheinlichkeiten zuordnen kann, würde der p-Wert nicht der Wahrscheinlichkeit entsprechen, dass die Nullhypothese wahr ist. Diese Interpretation ist völlig unvereinbar mit der Mathematik, mit der der Wert p berechnet wird. Kurz gesagt: Trotz der intuitiven Anziehungskraft dieser Denkweise gibt es keine Rechtfertigung dafür, einen p-Wert auf diese Weise zu interpretieren. Tun Sie es nie.