Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Ein Sammelsurium von Hypothesen

Irgendwann sind wir alle dem Wahnsinn verfallen. Für mich wird dieser Tag kommen, wenn ich endlich zum ordentlichen Professor befördert werde. Sicher in meinem Elfenbeinturm verwurzelt und glücklich durch die Festanstellung geschützt, werde ich endlich in der Lage sein, mich von meinem gesunden Menschenverstand zu verabschieden und mich einer äußerst unproduktiven Sparte der psychologischen Forschung hinzugeben, der Suche nach außersinnlicher Wahrnehmung (extrasensory perception, ESP).[1]

Nehmen wir an, dass dieser glorreiche Tag gekommen ist. Bei meiner ersten Studie handelt es sich um eine einfache Studie, mit der ich testen möchte, ob Hellsehen existiert. Jeder Teilnehmer setzt sich an einen Tisch und bekommt von einem Versuchsleiter eine Karte gezeigt. Die Karte ist auf einer Seite schwarz und auf der anderen weiß. Der Versuchsleiter nimmt die Karte weg und legt sie auf einen Tisch in einem Nebenraum. Die Karte wird nach dem Zufallsprinzip mit der schwarzen oder der weißen Seite nach oben abgelegt, wobei die Zufallsauswahl erst erfolgt, nachdem der Versuchsleiter mit dem Teilnehmer den Raum verlassen hat. Ein zweiter Versuchsleiter kommt herein und fragt den Teilnehmer, welche Seite der Karte nun nach oben zeigt. Es handelt sich um ein einmaliges Experiment. Jede Person sieht nur eine Karte und gibt nur eine Antwort, und zu keinem Zeitpunkt steht der Teilnehmer in Kontakt mit jemandem, der die richtige Antwort weiß. Mein Datensatz ist daher sehr einfach. Ich habe die Frage an N Personen gestellt, und eine gewisse Anzahl X dieser Personen hat die richtige Antwort gegeben. Um die Dinge zu konkretisieren, nehmen wir an, ich habe N = 100 Personen getestet und X = 62 von ihnen haben die richtige Antwort gegeben. Das ist sicherlich eine überraschend große Zahl. Aber ist sie groß genug, dass ich mit Sicherheit behaupten kann, dass ich einen Beweis für ESP gefunden habe? Dies ist die Situation, in der sich Hypothesentests als nützlich erweisen. Bevor wir jedoch darüber sprechen, wie man Hypothesen testet, müssen wir uns darüber klar werden, was wir unter Hypothesen verstehen.

Forschungshypothesen versus statistische Hypothesen

Die erste Unterscheidung, die Sie sich vor Augen halten müssen, ist die zwischen Forschungshypothesen und statistischen Hypothesen. In meiner ESP-Studie besteht mein übergeordnetes wissenschaftliches Ziel darin, nachzuweisen, dass Hellsehen existiert. In dieser Situation habe ich ein klares Forschungsziel: Ich hoffe, Beweise für ESP zu finden. In anderen Situationen könnte ich viel neutraler sein und sagen, dass mein Forschungsziel darin besteht, festzustellen, ob es Hellsehen gibt oder nicht. Unabhängig davon, wie ich mich darstellen möchte, will ich damit sagen, dass eine Forschungshypothese eine substanzielle, überprüfbare wissenschaftliche Behauptung beinhaltet. Wenn Sie Psychologe sind, dann sind Ihre Forschungshypothesen im Wesentlichen über psychologische Konstrukte. Jeder der folgenden Punkte würde als Forschungshypothese gelten:

  • Das Hören von Musik verringert die Fähigkeit, anderen Dingen Aufmerksamkeit zu schenken. Dies ist eine Behauptung über die kausale Beziehung zwischen zwei psychologisch bedeutsamen Konzepten (Musikhören und Aufmerksamkeit für andere Dinge), also eine durchaus vernünftige Forschungshypothese.

  • Die Intelligenz hängt mit der Persönlichkeit zusammen. Wie bei der letzten Behauptung handelt es sich um eine relationale Behauptung über zwei psychologische Konstrukte (Intelligenz und Persönlichkeit), aber die Behauptung ist schwächer: korrelativ, nicht kausal.

  • Intelligenz ist die Geschwindigkeit der Informationsverarbeitung. Diese Hypothese hat einen ganz anderen Charakter. Sie ist eigentlich überhaupt keine relationale Behauptung. Sie ist eine ontologische Behauptung über den grundlegenden Charakter der Intelligenz (und ich bin mir ziemlich sicher, dass sie falsch ist). Es lohnt sich tatsächlich, diese Behauptung zu erweitern. Es ist in der Regel einfacher, darüber nachzudenken, wie man Experimente konstruiert, um Forschungshypothesen der Form „Beeinflusst X Y?“ zu testen, als sich mit Aussagen wie „Was ist X?“ zu befassen. Und in der Praxis findet man in der Regel Wege, um relationale Behauptungen zu testen, die sich aus den ontologischen Behauptungen ergeben. Wenn ich zum Beispiel glaube, dass die Intelligenz der Geschwindigkeit der Informationsverarbeitung im Gehirn entspricht, werden meine Experimente nach Beziehungen zwischen Intelligenzmessungen und Geschwindigkeitsmessungen suchen. Folglich sind die meisten alltäglichen Forschungsfragen eher relationaler Natur, aber sie sind fast immer durch tiefere ontologische Fragen über den Zustand der Natur motiviert.

Beachten Sie, dass sich meine Forschungshypothesen in der Praxis stark überschneiden können. Mein ultimatives Ziel im ESP-Experiment könnte sein, eine ontologische Behauptung wie „ESP existiert“ zu testen, aber ich könnte mich operativ auf eine engere Hypothese wie „Manche Menschen können Objekte auf hellseherische Weise ‚sehen‘“ beschränken. Abgesehen davon gibt es einige Dinge, die wirklich nicht als richtige Forschungshypothesen in irgendeinem sinnvollen Sinne gelten:

  • Die Liebe ist ein Schlachtfeld. Dies ist zu vage, um überprüfbar zu sein. Es ist zwar in Ordnung, wenn eine Forschungshypothese ein gewisses Maß an Unbestimmtheit aufweist, aber es muss möglich sein, die theoretischen Ideen zu operationalisieren. Vielleicht bin ich einfach nicht kreativ genug, um das zu erkennen, aber ich kann nicht erkennen, wie diese Hypothese in ein konkretes Forschungsdesign umgesetzt werden kann. Wenn das stimmt, dann ist das keine wissenschaftliche Forschungshypothese, sondern ein Popsong. Das heißt nicht, dass die Frage nicht interessant ist. Viele tiefgründige Fragen, die Menschen haben, fallen in diese Kategorie. Vielleicht wird die Wissenschaft eines Tages in der Lage sein, überprüfbare Theorien über die Liebe aufzustellen oder zu testen, ob Gott existiert, und so weiter. Aber im Moment können wir das nicht, und ich würde nicht darauf wetten, dass wir jemals einen befriedigenden wissenschaftlichen Ansatz finden werden, um diese Fragestellungen zu untersuchen.

  • Die erste Regel des Tautologie-Clubs ist die erste Regel des Tautologie-Clubs. Dies ist keine inhaltliche Behauptung irgendeiner Art. Sie ist definitionsgemäß wahr. Kein denkbarer Zustand der Natur könnte mit dieser Behauptung unvereinbar sein. Wir sagen, dass es sich um eine nicht falsifizierbare Hypothese handelt, die als solche außerhalb des Bereichs der Wissenschaft liegt. Was auch immer Sie sonst in der Wissenschaft tun, Ihre Behauptungen müssen die Möglichkeit haben, falsch zu sein.

  • In meinem Experiment werden mehr Menschen „Ja“ als „Nein“ sagen. Diese Hypothese ist als Forschungshypothese ungeeignet, da sie eine Behauptung über den Datensatz und nicht über die Psychologie ist (es sei denn, Ihre eigentliche Forschungsfrage lautet, ob Menschen eine Art „Ja“-Voreingenommenheit haben). Eigentlich klingt diese Hypothese eher nach einer statistischen Hypothese als nach einer Forschungshypothese.

Wie Sie sehen, können Forschungshypothesen manchmal etwas chaotisch sein, und letztendlich sind sie wissenschaftliche Behauptungen. Statistische Hypothesen sind weder das eine, noch das andere. Statistische Hypothesen müssen mathematisch präzise sein und sie müssen spezifischen Aussagen über die Merkmale des datenerzeugenden Mechanismus (d. h. der „Population“) entsprechen. Dennoch sollen die statistischen Hypothesen einen klaren Bezug zu den inhaltlichen Forschungshypothesen haben, die Sie interessieren! In meiner ESP-Studie lautet meine Forschungshypothese zum Beispiel, dass manche Menschen durch Wände hindurch sehen können. Ich möchte diese Hypothese mit einer Aussage darüber verknüpfen, wie die Daten entstanden sind. Überlegen wir uns also, wie diese Aussage lauten könnte. Die Größe, an der ich im Rahmen des Experiments interessiert bin, ist P(„richtig“), die wahre, aber unbekannte Wahrscheinlichkeit, mit der die Teilnehmer an meinem Experiment die Frage richtig beantworten. Verwenden wir den griechischen Buchstaben θ (Theta), um diese Wahrscheinlichkeit zu bezeichnen. Hier sind vier verschiedene statistische Hypothesen:

  • Wenn es keine ESP gibt und mein Experiment gut konzipiert ist, dann raten meine Teilnehmer nur. Ich sollte also erwarten, dass sie in der Hälfte der Fälle richtig liegen. Meine statistische Hypothese lautet daher, dass die wahre Wahrscheinlichkeit, richtig zu wählen, θ = 0,5 beträgt.

  • Nehmen wir alternativ an, dass es ESP gibt und die Teilnehmer die Karte sehen können. Wenn dies der Fall ist, werden die Teilnehmer besser abschneiden als der Zufall und die statistische Hypothese lautet: θ > 0,5.

  • Eine dritte Möglichkeit ist, dass ESP tatsächlich existiert, aber die Farben vertauscht sind und die Menschen es nicht merken (okay, das ist wenig realistisch, aber man weiß ja nie). Wenn das so ist, dann würde man erwarten, dass die Leistung der Menschen unter Zufallsniveau liegt. Dies würde der statistischen Hypothese entsprechen, dass θ < 0,5 ist.

  • Nehmen wir schließlich an, dass es ESP gibt, ich aber keine Ahnung habe, ob die Leute die richtige oder die falsche Farbe sehen. In diesem Fall wäre die einzige Aussage, die ich über die Daten machen könnte, dass die Wahrscheinlichkeit, die richtige Antwort zu geben, nicht gleich 0,5 ist. Dies entspricht der statistischen Hypothese, dass θ ≠ 0,5.

All dies sind legitime Beispiele für statistische Hypothesen, weil sie Aussagen über einen Populationsparameter sind und in einem sinnvollen Zusammenhang mit meinem Experiment stehen.

Diese Diskussion macht, so hoffe ich, deutlich, dass der Forscher beim Versuch, einen statistischen Hypothesentest zu konstruieren, eigentlich zwei ganz unterschiedliche Hypothesen zu berücksichtigen hat. Erstens hat er eine Forschungshypothese (eine Behauptung über die Psychologie), und diese entspricht dann einer statistischen Hypothese (eine Behauptung über die Daten erzeugende Population). In meinem ESP-Beispiel könnten diese lauten:

Dani’s Forschungs-Hypothese:

„ESP existiert“

Dani’s statistische Hypothese:

θ ≠ 0.5

Ein wichtiger Punkt, den es zu beachten gilt, ist folgender. Ein statistischer Hypothesentest ist ein Test der statistischen Hypothese, nicht der Forschungshypothese. Wenn Ihre Studie schlecht konzipiert ist, ist eine Verbindung zwischen Ihrer Forschungshypothese und Ihrer statistischen Hypothese nicht gegeben. Um ein dummes Beispiel zu geben: Nehmen wir an, meine ESP-Studie wurde in einer Situation durchgeführt, in der der Teilnehmer die Karte in einem Fenster gespiegelt sehen kann. In diesem Fall könnte ich sehr starke Beweise dafür finden, dass θ ≠ 0,5 ist, aber das würde nichts darüber aussagen, ob „ESP existiert“.

Nullhypothesen und Alternativhypothesen

So weit, so gut. Ich habe eine Forschungshypothese, die dem entspricht, was ich über die Welt glauben möchte, und ich kann sie einer statistischen Hypothese zuordnen, die dem entspricht, was ich darüber glauben möchte, wie die Daten entstanden sind. An diesem Punkt werden die Dinge für viele Menschen etwas kontra-intuitiv. Denn ich bin dabei, eine neue statistische Hypothese (die „Null“-Hypothese, H0) zu erfinden, die dem genauen Gegenteil dessen entspricht, was ich glauben möchte, und mich dann ausschließlich auf diese Hypothese zu konzentrieren, so dass ich das, was mich eigentlich interessiert, fast vernachlässige (die „Alternativ“-Hypothese, H1). In unserem ESP-Beispiel lautet die Nullhypothese, dass θ = 0,5 ist, denn das ist das, was wir erwarten würden, wenn es das ESP nicht gäbe. Meine Hoffnung ist natürlich, dass ESP existiert und die Alternative zu dieser Nullhypothese θ ≠ 0,5 ist. Im Wesentlichen geht es hier darum, die möglichen Werte von θ in zwei Gruppen aufzuteilen: die Werte, von denen ich hoffe, dass sie nicht wahr sind (die Nullhypothese), und die Werte, mit denen ich zufrieden wäre, wenn sie sich als richtig erweisen würden (die Alternativhypothese). Dabei ist es wichtig zu erkennen, dass das Ziel eines Hypothesentests nicht ist, zu zeigen, dass die Alternativhypothese (wahrscheinlich) wahr ist. Das Ziel ist, zu zeigen, dass die Nullhypothese (wahrscheinlich) falsch ist. Die meisten Menschen finden das ziemlich seltsam.

Meiner Erfahrung nach stellt man sich einen Hypothesentest am besten wie einen Strafprozess vor,[2] den Prozess um die Nullhypothese. Die Nullhypothese ist der Angeklagte, der Forscher ist der Staatsanwalt, und der statistische Test selbst ist der Richter. Genau wie in einem Strafprozess gilt die Unschuldsvermutung. Die Nullhypothese wird als wahr angesehen, es sei denn, Sie, der Forscher, können zweifelsfrei nachweisen, dass sie falsch ist. Es steht Ihnen frei, Ihr Experiment so zu gestalten, wie Sie es möchten (in einem vernünftigen Rahmen). Ihr Ziel ist es, die Wahrscheinlichkeit zu maximieren, dass die Daten zu einer Verurteilung für das Verbrechen falsch zu sein führen. Der Haken an der Sache ist, dass die Regeln des Versuchs durch den statistischen Test festlegt sind. Diese Regeln sind so ausgelegt, dass die Nullhypothese geschützt wird, d. h. dass die Wahrscheinlichkeit einer falschen Verurteilung garantiert gering ist, wenn die Nullhypothese tatsächlich wahr ist. Das ist ziemlich wichtig. Schließlich bekommt die Nullhypothese keinen Anwalt, und da der Forscher verzweifelt versucht, zu beweisen, dass sie falsch ist, muss jemand sie schützen.