Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Warum Bayesianer sein?

Bis zu diesem Punkt habe ich mich ausschließlich auf die Logik konzentriert, die der Bayesschen Statistik zugrunde liegt. Wir haben über die Idee der „Wahrscheinlichkeit als Grad der Überzeugung“ gesprochen und darüber, was sie darüber aussagt, wie ein rationaler Akteur über die Welt denken sollte. Die Frage, die Sie für sich selbst beantworten müssen, ist folgende: Wie wollen Sie Ihre Statistik betreiben? Wollen Sie ein frquentistischer Statistiker sein und sich auf Stichprobenverteilungen und p-Werte verlassen, um Ihre Entscheidungen zu treffen? Oder wollen Sie ein Bayesianer sein, der sich auf Dinge wie a-priori-Wahrscheinlichkeiten, Bayes-Faktoren und die Regeln für rationale Überzeugungsänderung stützt? Ich kann diese Frage nicht für Sie beantworten. Letztlich hängt es davon ab, was Sie für richtig halten. Es ist Ihre Entscheidung und nur Ihre Entscheidung. Davon abgesehen kann ich ein wenig darüber sprechen, warum Ich den Bayesschen Ansatz bevorzuge.

Statistiken, die das bedeuten, was Sie denken, dass sie bedeuten

Sie verwenden ständig dieses Wort. Aber ich glaube nicht, dass es das bedeutet, was Sie denken, dass es bedeutet

Inigo Montoya, The Princess Bride[1]

Für mich besteht einer der größten Vorteile des Bayesschen Ansatzes darin, dass er die richtigen Fragen beantwortet. Im Rahmen des Bayesschen Ansatzes ist es durchaus sinnvoll und zulässig, sich auf die „Wahrscheinlichkeit, dass eine Hypothese wahr ist“ zu beziehen. Man kann sogar versuchen, diese Wahrscheinlichkeit zu berechnen. Ist es nicht genau das, was Ihre statistischen Tests Ihnen sagen sollten? Für einen echten Menschen scheint dies der Punkt der Statistik zu sein, d. h. zu bestimmen, was wahr ist und was nicht. Jedes Mal, wenn Sie sich nicht ganz sicher sind, was die Wahrheit ist, sollten Sie die Sprache der Wahrscheinlichkeitstheorie verwenden, um Dinge zu sagen wie: „Es besteht eine 80 % Wahrscheinlichkeit, dass Theorie A wahr ist, aber eine 20 % Wahrscheinlichkeit, dass stattdessen Theorie B wahr ist“.

Dies scheint für einen Menschen offensichtlich zu sein, ist aber für Anhänger der frequentistischen Sichtweise ausdrücklich untersagt. Für einen Frequentisten sind solche Aussagen unsinnig, denn bei „die Theorie ist wahr“ handelt es sich nicht um einen wiederholbaren Vorgang. Eine Theorie ist wahr oder sie ist es nicht, und es sind keine probabilistischen Aussagen erlaubt, egal wie sehr man sie auch machen möchte. Nicht umsonst habe ich im Abschnitt Der p-Wert eines Tests wiederholt davor gewarnt, den p-Wert als die Wahrscheinlichkeit zu interpretieren, dass die Nullhypothese wahr ist. Es gibt einen Grund, warum fast jedes Lehrbuch über Statistik gezwungen ist, diese Warnung zu wiederholen. Das liegt daran, dass die Menschen verzweifelt wollen, dass dies die richtige Interpretation ist. Ungeachtet des Frequentismus-Dogmas bin ich aufgrund meiner lebenslangen Erfahrung in der Lehre von Studenten und in der täglichen Datenanalyse der Meinung, dass die meisten Menschen die Wahrscheinlichkeit, dass die Hypothese wahr ist, nicht nur für bedeutsam halten, sondern auch für das, was uns am meisten am Herzen liegt. Dieser Gedanke ist so verlockend, dass selbst ausgebildete Statistiker dem Fehler erliegen, einen p-Wert auf diese Weise zu interpretieren. Hier ist zum Beispiel ein Zitat aus einem offiziellen Newspoll-Bericht aus dem Jahr 2013, in dem erklärt wird, wie die (frequentistische) Datenanalyse zu interpretieren ist:

Im gesamten Bericht wurden, soweit relevant, statistisch signifikante Veränderungen vermerkt. Alle Signifikanztests basieren auf einem Konfidenzniveau von 95 Prozent. Das bedeutet, dass, wenn eine Veränderung als statistisch signifikant vermerkt ist, eine 95-prozentige Wahrscheinlichkeit besteht, dass eine tatsächliche Veränderung stattgefunden hat und nicht nur auf zufällige Schwankungen zurückzuführen ist. (Hervorhebung vom Verfasser)

Nö! Das ist nicht was p < 0,05 bedeutet. Und es ist auch nicht, was 95 % Konfidenz für einen frequentistischen Statistiker bedeutet. Der fettgedruckte Abschnitt ist schlichtweg falsch. Orthodoxe (frequentistische) Methoden können nicht sagen: „Es besteht eine 95%-ige Wahrscheinlichkeit, dass eine echte Veränderung eingetreten ist“, weil dies nicht die Art von Ereignis ist, dem sich frequentistische Wahrscheinlichkeiten zuordnen lassen. Für einen orthodoxen Frequentisten dürfte dieser Satz bedeutungslos sein. Selbst wenn Sie ein pragmatischer Frequentist sind, ist dies immer noch die falsche Definition eines p-Wertes. Es ist einfach nicht erlaubt oder richtig, so etwas zu sagen, wenn man sich auf frequentistische statistische Werkzeuge verlassen will.

Nehmen wir andererseits an, Sie sind ein Bayesianer. Obwohl die fettgedruckte Passage die falsche Definition eines p-Wertes ist, ist es ziemlich genau das, was ein Bayesianer meint, wenn er sagt, dass die a-posteriori-Wahrscheinlichkeit der Alternativhypothese größer als 95 % ist. Und das ist der springende Punkt. Wenn die Bayessche a-posteriori-Wahrscheinlichkeit tatsächlich das ist, was Sie berichten wollen, warum versuchen Sie dann überhaupt, frequentistische Methoden zu verwenden? Um Bayessche Behauptungen aufzustellen, genügt es, ein Bayesianer zu sein, und Bayessche Werkzeuge zu verwenden.

Für mich persönlich war dies das Befreiendste an der Umstellung auf die Bayessche Sichtweise. Wenn man den Sprung geschafft hat, muss man sich nicht mehr mit kontraintuitiven Definitionen von p-Werten herumschlagen. Man muss sich nicht mehr daran erinnern, warum man nicht sagen kann, dass man 95 % sicher ist, dass der wahre Mittelwert innerhalb eines Intervalls liegt. Alles, was Sie tun müssen, ist, ehrlich zu sagen, was Sie vor der Studie geglaubt haben, und dann zu berichten, was Sie aus der Studie gelernt haben. Klingt gut, nicht wahr? Für mich ist gerade dies das große Versprechen des Bayesschen Ansatzes. Sie führen die Analyse durch, die Sie wirklich durchführen wollen, und bringen zum Ausdruck, was Sie wirklich glauben, dass die Daten Ihnen sagen.

Evidenzstandards, denen Sie vertrauen können

Wenn [p] unter 0,02 liegt, ist dies ein starkes Indiz dafür, dass die [Null-]Hypothese die Gesamtheit der Fakten nicht erklärt. Wir werden nicht oft in die Irre gehen, wenn wir eine konventionelle Linie bei 0,05 ziehen und davon ausgehen, dass [kleinere Werte von p] eine echte Diskrepanz anzeigen.

Sir Ronald Fisher (1925)

Dieses Zitat stammt von Sir Ronald Fisher, einem der Begründer des frequentistischen Ansatzes in der Statistik. Wenn jemand jemals berechtigt war, eine Meinung über die beabsichtigte Funktion von p-Werten zu äußern, dann ist es Fisher. In dieser Passage aus seinem klassischen Leitfaden Statistical Methods for Research Workers ist er ziemlich klar darüber, was es bedeutet, eine Nullhypothese bei p < 0,05 zurückzuweisen. Seiner Meinung nach bedeutet p < 0,05, dass es „einen echten Effekt“ gibt, dann „werden wir nicht oft in die Irre gehen“. Diese Ansicht ist nicht ungewöhnlich. Meiner Erfahrung nach vertreten die meisten Praktiker eine sehr ähnliche Auffassung wie Fisher. Im Wesentlichen wird davon ausgegangen, dass die Konvention p < 0,05 einen ziemlich strengen Beweisstandard darstellt.

Nun, wie wahr ist das? Eine Möglichkeit, sich dieser Frage zu nähern, ist der Versuch, p-Werte in Bayes-Faktoren umzuwandeln und zu sehen, ob sich die beiden vergleichen lassen. Das ist nicht einfach, denn ein p-Wert unterliegt einer grundsätzlich anderen Art von Berechnung als ein Bayes-Faktor, und sie messen nicht dasselbe. Es hat jedoch einige Versuche gegeben, die Beziehung zwischen den beiden herauszuarbeiten. Zum Beispiel präsentiert Johnson (2013) ein ziemlich überzeugendes Argument dafür, dass (zumindest für t-Tests) die Schwelle von p < 0,05 ungefähr einem Bayes-Faktor von irgendwo zwischen 3:1 und 5:1 zugunsten der Alternative entspricht. Wenn das stimmt, dann ist Fishers Behauptung ein bisschen weit hergeholt. Nehmen wir an, dass die Nullhypothese in etwa der Hälfte der Fälle zutrifft (d. h., die a-priori-Wahrscheinlichkeit von H0 ist 0,5), und wir verwenden diese Zahlen, um die a-posteriori-Wahrscheinlichkeit der Nullhypothese zu berechnen, wenn sie unter p < 0,05 zurückgewiesen würde. Anhand der Daten von Johnson (2013) sehen wir, dass, wenn Sie die Nullhypothese bei p < 0,05 ablehnen, in etwa 80 % der Fälle richtig iegen. Ich weiß nicht, wie es Ihnen geht, aber meiner Meinung nach ist ein Standard, der sicherstellt, dass Sie bei lediglich 20 % Ihrer Entscheidungen falsch liegen, nicht gut genug. Tatsache ist, dass man entgegen der Behauptung von Fisher ziemlich oft falsch liegt, wenn man eine Hypothese bei p < 0,05 verwirft. Das ist keine sehr strenge Beweisschwelle.

Der p-Wert ist eine Lüge.

Der Kuchen ist eine Lüge.
Der Kuchen ist eine Lüge.
Der Kuchen ist eine Lüge.
Der Kuchen ist eine Lüge.

Portal

An dieser Stelle werden Sie vielleicht denken, dass das eigentliche Problem nicht die frequentistische Statistik ist, sondern nur der p < 0,05 Standard. In gewisser Weise stimmt das auch. Die Empfehlung, die Johnson (2013) gibt, lautet nicht, dass „jeder jetzt ein Bayesianer sein muss“. Stattdessen wird vorgeschlagen, dass es klüger wäre, den konventionellen Standard auf einen Wert wie p < 0,01 zu verschieben. Das ist kein unvernünftiger Standpunkt, aber meiner Meinung nach ist das Problem noch ein wenig gravierender als das. Meiner Meinung nach liegt ein ziemlich großes Problem in der Art und Weise, wie die meisten (aber nicht alle) frequentistischen Hypothesentests konstruiert sind. Sie sind sehr naiv in Bezug darauf, wie Menschen tatsächlich forschen, und deshalb sind die meisten p-Werte falsch.

Das klingt nach einer absurden Behauptung? Stellen Sie sich folgendes Szenario vor: Sie haben eine wirklich spannende Forschungshypothese aufgestellt und entwerfen eine Studie, um sie zu testen. Da Sie sehr sorgfältig sind, führen Sie eine Power-Analyse (Teststärke-Berechnung) durch, um zu ermitteln, wie groß Ihre Stichprobe sein sollte, und führen die Studie durch. Sie führen dann Ihren Hypothesentest durch, und heraus kommt ein p-Wert von 0,072. Wirklich verdammt ärgerlich, oder?

Was sollten Sie tun? Hier sind einige Möglichkeiten:

  1. Sie kommen zu dem Schluss, dass es keinen Effekt gibt und versuchen, dies als Nullergebnis zu veröffentlichen

  2. Sie vermuten, dass es einen Effekt geben könnte, und versuchen, ihn als „marginal signifikantes“ Ergebnis zu veröffentlichen

  3. Sie geben auf und probieren eine neue Studie aus

  4. Sie sammeln weitere Daten, um zu sehen, ob der p-Wert ansteigt oder (vorzugsweise) unter das „magische“ Kriterium p < 0,05 fällt

Was würden Sie wählen? Bevor Sie weiterlesen, möchte ich Sie bitten, sich etwas Zeit zu nehmen und darüber nachzudenken. Seien Sie ehrlich zu sich selbst. Aber machen Sie sich nicht zu viel Stress, denn Sie sind auf jeden Fall aufgeschmissen, egal wie Sie sich entscheiden. Basierend auf meinen eigenen Erfahrungen als Autor, Gutachter und Redakteur sowie auf Geschichten, die ich von anderen gehört habe, ist hier, was in jedem Fall passieren wird:

  • Beginnen wir mit Option 1. Wenn Sie versuchen, es als Nullergebnis zu veröffentlichen, wird die Arbeit kaum veröffentlicht werden. Einige Gutachter werden denken, dass p = 0,072 nicht wirklich ein Null-Ergebnis ist. Sie werden argumentieren, dass es marginal signifikant ist. Andere Gutachter werden zwar zustimmen, dass es sich um ein Nullergebnis handelt, aber behaupten, dass Ihr Nullergebnisse nicht publizierbar ist, obwohl andere Nullergebnisse es sind. Ein oder zwei Gutachter könnten sogar auf Ihrer Seite sein, aber Sie werden einen harten Kampf führen müssen, um eine Publikation durchzusetzen.

  • Lassen Sie uns nun über Option 2 nachdenken. Nehmen wir an, Sie versuchen, es als ein marginal signifikantes Ergebnis zu veröffentlichen. Einige Gutachter werden behaupten, dass es ein Null-Ergebnis ist und nicht veröffentlicht werden sollte. Andere werden behaupten, dass die Beweise nicht eindeutig genug sind und dass Sie mehr Daten sammeln sollten, bis Sie ein eindeutiges signifikantes Ergebnis erhalten. Auch hier gilt: Der Publikationsprozess ist nicht zu Ihren Gunsten.

  • Angesichts der Schwierigkeiten, ein „zweideutiges“ Ergebnis wie p = 0,072 zu veröffentlichen, mag Option 3 verlockend erscheinen: Aufgeben und eine andere Studie machen. Aber das ist ein Rezept für Karriereselbstmord. Wenn Sie jedes Mal, wo Sie mit einem unklaren Ergebnis konfrontiert werden, aufgeben und ein neues Projekt in Angriff nehmen, werden große Teile Ihrer Arbeit nie veröffentlicht werden. Und wenn Sie im akademischen Bereich tätig sind und nur wenige Veröffentlichungen vorweisen können, könnten Sie Ihren Job verlieren. Diese Option ist also ausgeschlossen.

  • Es sieht so aus, als bliebe Ihnen nur Option 4. Sie haben keine schlüssigen Ergebnisse, also beschließen Sie, weiter Daten zu sammeln und die Analyse erneut durchzuführen. Das scheint vernünftig zu sein, aber leider sind in diesem Fall alle p-Werte nicht mehr korrekt. Alle! Nicht nur die p-Werte, die Sie für diese Studie berechnet haben, sondern alle p-Werte, die Sie in der Vergangenheit berechnet haben, und alle p-Werte, die Sie in der Zukunft berechnen werden. Glücklicherweise wird es niemandem auffallen. Sie werden veröffentlicht, und Sie werden gelogen haben.

Moment, aber warum? Wie kann der letzte Teil wahr sein? Option 4 klingt doch nach einer vernünftigen Strategie? Sie haben einige Daten gesammelt, die Ergebnisse waren nicht schlüssig, also wollen Sie jetzt mehr Daten sammeln, bis die Ergebnisse schlüssig sind. Was ist daran falsch?

Ehrlich gesagt, ist daran nichts auszusetzen. Es erscheint wie eine vernünftige und rationale Sache. Im wirklichen Leben ist es genau das, was jeder Forscher tut. Leider verbietet die Theorie der Nullhypothesentests, die ich in Kapitel Das Überprüfen von Hypothesen beschrieben habe, Ihnen genau das zu tun.[2] Der Grund dafür ist, dass die Theorie davon ausgeht, dass das Experiment beendet ist wenn alle Daten vorhanden sind. Und weil die Theorie davon ausgeht, dass das Experiment beendet ist, berücksichtigt sie nur zwei mögliche Entscheidungen. Wenn Sie den konventionellen p-Schwellenwert < 0,05 verwenden, lauten diese Entscheidungen:

Ergebnis

Schlussfolgerung

p ist kleiner als 0,05

Verwerfen Sie die Nullhypothese

p ist größer als 0,05

Behalten Sie die Nullhypothese bei

Was Sie tun, ist, dem Entscheidungsproblem eine dritte mögliche Handlung hinzuzufügen. Genauer gesagt, verwenden Sie den p-Wert selbst als Grund, um die Fortsetzung des Experiments zu rechtfertigen. Infolgedessen haben Sie das Entscheidungsverfahren in ein Verfahren umgewandelt, das eher wie folgt aussieht:

Ergebnis

Schlussfolgerung

p ist kleiner als 0,05

Beenden Sie das Experiment und verwerfen Sie die Nullhypothese

p zwischen 0,05 und 0,1

Setzen Sie das Experiment fort

p ist größer als 0,1

Beenden Sie das Experiment und behalten Sie die Nullhypothese bei

Die „grundlegende“ Theorie des ullhypothesentests ist nicht dafür ausgelegt, mit dieser Art von Dingen umzugehen; nicht in der Form, wie ich sie in Kapitel Das Überprüfen von Hypothesen beschrieben habe. Wenn Sie zu den Menschen gehören, die im wirklichen Leben „mehr Daten sammeln“ wollen, bedeutet das, dass Sie nicht Entscheidungen nach den für die Überprüfung von Nullhypothese aufgestellten Regeln treffen. Selbst wenn Sie zufällig zu der gleichen Entscheidung kommen, wie der Hypothesentest, befolgen Sie nicht den Entscheidungsprozess der damit einhergeht. Es ist dieses Versäumnis, dem „vorgeschriebenen“ Prozess zu folgen, welches das Problem verursacht (ein verwandtes Problem). Ihre p-Werte sind eine Lüge.

Schlimmer noch, sie sind eine gefährliche Lüge, denn sie sind alle zu klein. Um Ihnen ein Gefühl dafür zu geben, wie schlimm es sein kann, stellen Sie sich folgendes Szenario vor (schlimmstmöglicher Fall). Stellen Sie sich vor, Sie sind ein wirklich begeisterter Forscher mit einem knappen Budget, der meine obigen Warnungen nicht beachtet hat. Sie entwerfen eine Studie zum Vergleich zweier Gruppen. Sie wollen unbedingt ein signifikantes Ergebnis mit p < 0,05 erzielen, aber Sie wollen nicht mehr Daten erheben als nötig (denn das ist teuer). Um die Kosten zu sparen, beginnen Sie mit dem Sammeln von Daten, aber jedes Mal, wenn eine neue Beobachtung eintrifft, führen Sie einen t-Test mit Ihren Daten durch. Wenn der t-Test p < 0,05 ergibt, brechen Sie das Experiment ab und melden ein signifikantes Ergebnis. Wenn nicht, sammeln Sie weiter Daten. Das machen Sie so lange, bis Sie Ihr vorher festgelegtes Ausgabenlimit für dieses Experiment erreicht haben. Sagen wir, diese Grenze wird bei N = 1000 Beobachtungen erreicht. Es stellt sich heraus, dass in Wahrheit kein Effekt existiert: Die Nullhypothese ist wahr. Wie groß ist also die Wahrscheinlichkeit, dass Sie das Experiment zu Ende führen und (korrekt) zu dem Schluss kommen, dass es keine Wirkung gibt? In einer idealen Welt sollte die Antwort hier 95 % lauten. Schließlich besteht der Sinn des Kriteriums p < 0,05 darin, die Fehlerrate vom Typ I auf 5 % zu begrenzen, so dass wir hoffen können, dass die Wahrscheinlichkeit, die Nullhypothese fälschlicherweise zurückzuweisen, in dieser Situation nur 5 % beträgt. Es gibt jedoch keine Garantie dafür, dass dieser Fall eintritt. Sie brechen die Regeln. Da Sie die Tests wiederholt durchführen und Ihre Daten „überprüfen“, um zu sehen, ob Sie ein signifikantes Ergebnis erhalten haben, sind alle Wetten verloren.

Auswirkung des erneuten Durchführens Ihrer Tests beim Eintreffen neuer Daten

Abb. 200 Wie schlimm kann etwas schiefgehen, wenn Sie Ihre Tests jedes Mal erneut ausführen, wenn neue Daten eintreffen? Wenn Sie ein Frequentist sind, ist die Antwort „sehr schlimm“.

Wie schlimm ist es also? Die Antwort wird als durchgezogene schwarze Linie in Abb. 200 angezeigt, und sie ist erstaunlich schlecht. Wenn Sie nach jeder einzelnen Beobachtung einen Blick auf Ihre Daten werfen, besteht eine 49%-ige Wahrscheinlichkeit, dass Sie einen Fehler vom Typ I machen. Das ist, ähm, ziemlich viel größer als der 5%-Hut, den man eigentlich aufsetzen sollte. Zum Vergleich: Stellen Sie sich vor, Sie hätten die folgende Strategie angewandt. Beginnen Sie mit dem Sammeln von Daten. Jedes Mal, wenn eine Beobachtung eintrifft, führen Sie einen Bayessche t-Tests durch und sehen sich den Bayes-Faktor an. Ich gehe davon aus, dass Johnson (2013) Recht hat, und behandle einen ayes-Faktor von 3:1 als ungefähr gleichwertig mit einem p-Wert von 0,05.[3] Dieses Mal verwendet unser Forscher das folgende Verfahren. Wenn der Bayes-Faktor 3:1 oder mehr zu Gunsten der Nullhypothese beträgt, wird das Experiment abgebrochen und die Nullhypothese beibehalten. Wenn der Bayes-Faktor 3:1 oder mehr für die Alternativhypothese beträgt, wird das Experiment abgebrochen und die Nullhypothese verworfen. Andernfalls setzen Sie den Versuch fort. Nehmen wir nun wie beim letzten Mal an, dass die Nullhypothese wahr ist. Was geschieht nun? Ich habe die Simulationen auch für dieses Szenario durchgeführt, und die Ergebnisse sind als gestrichelte Linie in Abb. 200 dargestellt. Es stellt sich heraus, dass die Fehlerrate vom Typ I sehr viel niedriger ist, als die 49%-ige Wahrscheinlichkeit, die wir bei Verwendung des frequentistischen t-Tests erhielten.

In gewisser Weise ist dies bemerkenswert. Der gesamte Punkt der frequentistischen Nullhypothesentests besteht darin, die Fehlerrate vom Typ I zu kontrollieren. Bayessche Methoden sind dafür eigentlich gar nicht ausgelegt. Trotzdem ist der Bayessche Ansatz viel effektiver, wenn man es mit einem „schießwütigen“ Forscher zu tun hat, der ständig aufs neue Hypothesentests durchführt, sobald weitere Daten eintreffen. Selbst der 3:1-Standard, den die meisten Bayesianer als inakzeptabel lasch ansehen würden, ist viel sicherer als die Regel p < 0,05.

Ist es wirklich so schlimm?

Das Beispiel, welches ich im vorigen Abschnitt benutzt habe, beschreibt eine ziemlich extreme Situation. Im wirklichen Leben führt man nicht jedes Mal einen Hypothesentest durch, wenn eine neue Beobachtung eintrifft. Es ist also nicht fair zu sagen, dass der Schwellenwert p < 0,05 „wirklich“ einer Typ-I-Fehlerrate vom von 49 % entspricht (d. h. p = 0,49). Aber wenn Sie wollen, dass Ihre p-Werte ehrlich sind, dann müssen Sie entweder zu einer völlig anderen Art des Durchführens von Hypothesentests übergehen oder eine strenge Regel durchsetzen: no peeking. Es ist nicht erlaubt, die Daten zu verwenden, um zu entscheiden, wann das Experiment abgebrochen werden soll. Es ist nicht erlaubt, sich einen „grenzwertigen“ p-Wert anzusehen und zu entscheiden, mehr Daten zu sammeln. Sie dürfen nicht einmal Ihre Strategie zur Datenanalyse ändern, nachdem Sie sich die Daten angesehen haben. Sie müssen sich strikt an diese Regeln halten, sonst werden die p-Werte, die Sie berechnen, unsinnig sein.

Es ist korrekt, zu sagen, dass diese Regeln sind erstaunlich streng sind. Vor ein paar Jahren habe ich die Schüler gebeten, über folgendes Szenario nachzudenken. Angenommen, Sie beginnen Ihre Studie mit der Absicht, Daten von N = 80 Personen zu erheben. Zu Beginn der Studie halten Sie sich an die Regeln und weigern sich, die Daten anzusehen oder irgendwelche Tests durchzuführen. Aber wenn Sie N = 50 erreichen, gibt Ihre Willenskraft nach… und Sie werfen einen Blick auf Ihre Daten. Und raten Sie mal? Sie haben ein signifikantes Ergebnis erhalten! Natürlich wissen Sie, dass Sie gesagt haben, dass Sie die Studie bis zu einer Stichprobengröße von N = 80 weiterführen würden, aber das erscheint Ihnen jetzt irgendwie sinnlos, oder? Das Ergebnis ist bei einer Stichprobengröße von N = 50 signifikant, wäre es also nicht verschwenderisch und ineffizient, weiterhin Daten zu sammeln? Sind Sie nicht versucht, damit aufzuhören? Nur ein bisschen? Dann sollten Sie bedenken, dass Ihre Typ-I-Fehlerwahrscheinlichkeit gerade von 5 % auf 8 % gestiegen ist. Wenn Sie in Ihrer Arbeit p < 0,05 angeben, heißt es in Wirklichkeit p < 0,08. So schlimm können die Folgen von „nur einem Blick“ sein.

Bedenken Sie Folgendes: Die wissenschaftliche Literatur ist voll von t-Tests, ANOVAs, Regressionen und χ²-Tests. Als ich dieses Buch schrieb, habe ich diese Tests nicht willkürlich ausgewählt. Der Grund, warum diese vier Instrumente in den meisten einführenden Statistik-Texten vorkommen, ist, dass es sich dabei um die „Brot und Butter“-Werkzeuge der Wissenschaft handelt. Keines dieser Werkzeuge enthält eine Korrektur für das „data peeking“: Sie alle gehen davon aus, dass man es nicht tut. Aber wie realistisch ist diese Annahme? Was glauben Sie, wie viele Menschen im wirklichen Leben einen „Blick“ auf ihre Daten geworfen haben, bevor das Experiment beendet war, und dann ihr Verhalten angepasst haben, nachdem sie gesehen hatten, wie die Daten aussahen? Außer wenn das Stichprobenverfahren durch eine äußere Bedingung festgelegt ist, lautet die Antwort wohl „die meisten Menschen würden sich so verhalten“. Wenn dies der Fall war, kann man daraus schließen, dass die angegebenen p-Werte falsch sind. Schlimmer noch, da wir nicht wissen, welchem Entscheidungsprozess diese Menschen tatsächlich gefolgt sind, haben wir keine Möglichkeit zu erfahren, wie die p-Werte hätten lauten sollen. Man kann keinen p-Wert berechnen, wenn man das Entscheidungsverfahren nicht kennt, das der Forscher angewandt hat. Und so bleibt der p-Wert eine Lüge.

Was ist nun die Schlussfolgerung aus allen diesen Erwägungen? Bayessche Methoden sind nicht narrensicher. Wenn ein Forscher entschlossen ist, zu betrügen, kann er das immer tun. Die Bayes-Regel kann weder verhindern, dass jemand lügt, noch kann sie ihn davon abhalten, ein Experiment zu manipulieren. Doch darum geht es hier auch nicht. Es ist derselbe Punkt, den ich ganz am Anfang des Buches im Abschnitt Zur Psychologie der Statistik dargelegt habe: Der Grund, warum wir statistische Tests durchführen, ist, um uns vor uns selbst zu schützen. Und der Grund, warum „data peeking“ so besorgniserregend ist, ist, dass es sogar für ehrliche Forscher äußerst verlockend ist. Jede Theorie für statistische Schlussfolgerungen muss dies anerkennen. Ja, man könnte versuchen, p*-Werte zu verteidigen, indem man sagt, dass es die Schuld des Forschers ist, wenn er sie nicht richtig verwendet, aber meiner Meinung nach geht das am Thema vorbei. Eine Theorie der statistischen Inferenz, die den Menschen so naiv betrachtet, dass sie nicht einmal die Möglichkeit in Betracht zieht, dass der Forscher seine eigenen Daten betrachtet, ist keine Theorie wert. Im Wesentlichen geht es mir um Folgendes:

Gute Gesetze haben ihren Ursprung in schlechten Gewohnheiten.

Ambrosius Macrobius

Gute Regeln für statistische Tests müssen menschliche Schwächen anerkennen. Niemand von uns ist ohne Sünde und völlig vor Versuchungen gefeit. Ein gutes System für statistische Schlussfolgerungen sollte auch dann noch funktionieren, wenn es von echten, fehlbaren Menschen benutzt wird. Frequentistische Nullhypothesentests erfüllen dieses Kriterium nicht.[4]