Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Sonstige Themen

  • Fehlende Daten. Angenommen, Sie führen eine Umfrage durch und interessieren sich für Bewegung und Gewicht. Sie senden Daten an vier Personen. Adam sagt, er treibe viel Sport und sei nicht übergewichtig. Briony sagt, sie treibe viel Sport und sei nicht übergewichtig. Carol sagt, sie treibe keinen Sport und sei übergewichtig. Tim sagt, er treibe keinen Sport und weigert sich, die Frage nach seinem Gewicht zu beantworten. Elaine sendet die Umfrage nicht zurück. Sie haben nun ein Problem mit fehlenden Daten. Es fehlt eine ganze Umfrage und eine Frage in einer anderen Umfrage. Was tun Sie? Das Ignorieren fehlender Daten ist im Allgemeinen keine gute Idee. Betrachten wir hier die Umfrage von Tim. Zunächst fällt auf, dass er aufgrund seiner anderen Antworten mehr Ähnlichkeit mit Carol (beide trainieren nicht) als mit Adam oder Briony zu haben scheint. Wenn Sie also gezwungen wären, sein Gewicht zu schätzen, würden Sie vermuten, dass er Carol ähnlicher ist als den beiden Anderen. Vielleicht würden Sie die Tatsache korrigieren, dass Adam und Tim männlich und Briony und Carol weiblich sind. Der statistische Name für diese Art des Ratens ist „Imputation“. Das sichere Durchführen von Imputationen ist schwierig, aber wichtig, vor allem, wenn die fehlenden Daten systematisch fehlen. Da übergewichtige Menschen sich oft unter Druck gesetzt fühlen, wegen ihres Gewichts besorgt zu sein, haben wir Grund zu der Annahme, dass die Personen, die nicht antworten, mit größerer Wahrscheinlichkeit übergewichtig sind als die Personen, die antworten. Wenn wir Tim ein Gewicht zuschreiben, bedeutet dies, dass die Zahl der übergewichtigen Personen in der Stichprobe wahrscheinlich von 1 von 3 (wenn wir Tim ignorieren) auf 2 von 4 (wenn wir Tims Gewicht zuschreiben) ansteigt. Das ist natürlich wichtig. Aber eine sinnvolle Vorgehensweise ist komplizierter als es klingt. Vorhin habe ich vorgeschlagen, Tim wie Carol zu behandeln, da beide die gleiche Antwort auf die Übungsfrage gegeben haben. Aber das ist nicht ganz richtig. Es gibt einen systematischen Unterschied zwischen den beiden. Sie hat die Frage beantwortet, Tim aber nicht. Ist es angesichts des sozialen Drucks, dem übergewichtige Menschen ausgesetzt sind, nicht wahrscheinlich, dass Tim stärker übergewichtig ist als Carol? Und natürlich wird dabei immer noch die Tatsache ignoriert, dass es nicht sinnvoll ist, Tim einen festen Wert für sein Gewicht zuzuschreiben, so als ob man sein Gewicht tatsächlich kennen würde. Stattdessen müssen Sie eine Reihe von plausiblen Schätzungen unterstellen (als multiple Imputation bezeichnet), um der Tatsache Rechnung zu tragen, dass Sie über das Gewicht von Tim unsicherer sind als über das von Carol. Und lassen Sie uns gar nicht erst mit dem Problem anfangen, das sich aus der Tatsache ergibt, dass Elaine die Umfrage nicht beantwortet hat. Wie Sie sich wahrscheinlich denken können, ist der Umgang mit fehlenden Daten ein wichtiges Thema. Man hat mir sogar gesagt, dass viele Zeitschriften in einigen Bereichen Studien mit fehlenden Daten nur dann akzeptieren, wenn ein vernünftiges Schema für die mehrfache Imputation befolgt wird.

  • Stärkeberechnungen (power analysis). In Kapitel Das Überprüfen von Hypothesen habe ich das Konzept der Teststärke (power) erörtert (d. h. wie wahrscheinlich ist es, dass Sie einen Effekt nachweisen können, wenn er tatsächlich existiert) und auf Stärkeberechnungen verwiesen: eine Sammlung von Instrumenten, die nützlich sind, um zu beurteilen, wie viel Aussagekraft Ihre Studie hat. Stärkeberechnungen können bei der Planung einer Studie nützlich sein (z.B. um herauszufinden, wie groß die Stichprobe, die Sie wahrscheinlich benötigen, sein sollte), aber auch bei der Analyse bereits erhobener Daten. Nehmen wir zum Beispiel an, Sie erhalten ein signifikantes Ergebnis und haben eine Schätzung der Effektstärke. Mit dieser Information können Sie abschätzen, wie groß die Aussagekraft Ihrer Studie tatsächlich war. Das ist sehr nützlich, vor allem, wenn die Effektstärke nicht groß ist. Nehmen wir zum Beispiel an, dass Sie die Nullhypothese bei p < 0,05 ablehnen, aber mithilfe von Stärkeberechnungen herausfinden, dass Ihre geschätzte Teststärke nur 0,08 beträgt. Das signifikante Ergebnis bedeutet, dass, wenn die Nullhypothese tatsächlich zutrifft, eine Wahrscheinlichkeit von 5 % besteht, solche Daten zu erhalten. Die geringe Teststärke bedeutet jedoch auch, dass, selbst wenn die Nullhypothese falsch ist und die Effektstärke wirklich so klein ist, wie es aussieht, nur eine Wahrscheinlichkeit von 8 % besteht, Daten wie die von Ihnen gewonnenen zu erhalten. Dies legt nahe, dass Sie ziemlich vorsichtig sein müssen, denn der Zufall scheint bei Ihren Ergebnissen eine große Rolle gespielt zu haben!

  • Datenanalyse mit theoriegeleiteten Modellen. An einigen Stellen in diesem Buch habe ich Reaktionszeitdaten (RT) erwähnt, bei denen aufgezeichnet wird, wie lange jemand braucht, um etwas zu tun (z.B. eine einfache Entscheidung zu treffen). Ich habe erwähnt, dass RT-Daten fast ausnahmslos nicht normalverteilt, sondern rechtsschief sind. Außerdem gibt es einen so genannten Kompromiss zwischen Geschwindigkeit und Genauigkeit: Wenn Sie versuchen, Entscheidungen schnell zu treffen (niedrige RT), werden Sie wahrscheinlich schlechtere Entscheidungen treffen (geringere Genauigkeit). Wenn man also sowohl die Genauigkeit der Entscheidungen eines Teilnehmers als auch seine RT misst, wird man wahrscheinlich feststellen, dass Geschwindigkeit und Genauigkeit zusammenhängen. Das ist natürlich nicht alles, denn manche Menschen treffen bessere Entscheidungen als andere, unabhängig davon, wie schnell sie sind. Zusätzlich hängt die Geschwindigkeit sowohl von kognitiven Prozessen (d. h. von der Zeit, die man mit Denken verbringt) als auch von physiologischen Prozessen ab (z. B. davon, wie schnell man seine Muskeln bewegen kann). Das hört sich an, als ob die Analyse dieser Daten ein komplizierter Prozess wäre. Das ist es auch, aber wenn man sich mit der psychologischen Literatur befasst, stellt man fest, dass es bereits mathematische Modelle (so genannte „sequentielle Stichprobenmodelle“) gibt, die beschreiben, wie Menschen einfache Entscheidungen treffen. Diese Modelle berücksichtigen viele der oben genannten Faktoren. Sie werden keines dieser theoretisch inspirierten Modelle in einem Standard-Statistik-Lehrbuch finden. Standard-Statistik-Lehrbücher beschreiben Standardwerkzeuge, die in vielen verschiedenen Disziplinen sinnvoll angewendet werden können, nicht nur in der Psychologie. Die Varianzanalyse (ANOVA) ist ein Beispiel für ein Standardinstrument, das in der Psychologie ebenso anwendbar ist wie in der Pharmakologie. Sequentielle Stichprobenmodelle sind es nicht, sie sind mehr oder weniger Psychologie-spezifisch. Das bedeutet nicht, dass sie weniger leistungsfähig sind. Wenn Sie Daten analysieren, bei denen Menschen schnell Entscheidungen treffen müssen, sollten Sie tatsächlich sequenzielle Stichprobenmodelle zur Analyse der Daten verwenden. Die Verwendung von Varianzanalyse oder Regression (oder was auch immer) wird nicht so gut funktionieren, weil die theoretischen Annahmen, die ihnen zugrunde liegen, nicht gut auf Ihre Daten abgestimmt sind. Im Gegensatz dazu wurden sequenzielle Stichprobenmodelle ausdrücklich für die Analyse dieser speziellen Art von Daten entwickelt, und ihre theoretischen Annahmen sind extrem gut auf die Daten abgestimmt.