Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Einführung in die Wahrscheinlichkeitsrechnung

[Gott] hat uns nur das Zwielicht … der Wahrscheinlichkeit geschenkt.

—John Locke

Bis zu diesem Punkt in diesem Buch haben wir einige der wichtigsten Ideen zur Versuchsplanung erörtert und ein wenig darüber gesprochen, wie man einen Datensatz zusammenfassen kann. Für viele Menschen ist das alles, was Statistik ausmacht: alle Zahlen sammeln, Durchschnittswerte berechnen, Bilder zeichnen und alles irgendwo in einen Bericht packen. Ein bisschen wie Briefmarkensammeln, aber mit Zahlen. Statistik umfasst jedoch viel mehr als das. Tatsächlich ist die deskriptive Statistik einer der kleinsten Teile der Statistik und einer der am wenigsten leistungsfähigen. Der größere und nützlichere Teil der Statistik besteht darin, dass sie Informationen liefert, die Rückschlüsse auf die Daten zulassen.

Sobald man anfängt, über Statistik in diesem Sinne zu denken, nämlich dass Statistik dazu da ist, uns dabei zu helfen, Schlüsse aus Daten zu ziehen, sieht man überall Beispiele dafür. Hier zum Beispiel ein kleiner Auszug aus einem Zeitungsartikel im Sydney Morning Herald (30. Oktober 2010):

„Ich habe einen harten Job“, sagte die Premierministerin als Reaktion auf eine Umfrage, die ergab, dass ihre Regierung mit einem Stimmenanteil von nur 23 Prozent die unbeliebteste Regierung in der Geschichte der Meinungsumfragen ist.

Diese Art von Bemerkung ist in den Zeitungen oder im Alltag völlig unauffällig, aber denken wir einmal darüber nach, was sie bedeutet. Ein Meinungsforschungsinstitut hat eine Umfrage durchgeführt, in der Regel eine ziemlich große, weil sie es sich leisten können. Ich bin zu faul, um die Originalumfrage ausfindig zu machen, also stellen wir uns einfach vor, dass 1000 Wähler aus New South Wales (NSW) nach dem Zufallsprinzip angerufen wurden und 230 (23 %) von ihnen angaben, dass sie beabsichtigten, für die Australian Labor Party (ALP) zu stimmen. Für die Parlamentswahl 2010 meldete die australische Wahlkommission 4 610 795 registrierte Wähler in NSW, so dass uns die Meinung der übrigen 4 609 795 Wähler (etwa 99,98 % der Wähler) unbekannt bleibt. Selbst wenn man davon ausgeht, dass niemand das Meinungsforschungsinstitut belogen hat, können wir mit 100 % Wahrscheinlichkeit nur sagen, dass das wahre Ergebnis der ALP-Vorwahlen irgendwo zwischen 230 / 4610795 (etwa 0,005 %) und 4610025 / 4610795 (etwa 99,83 %) liegt. Auf welcher Grundlage ist es also legitim, dass das Meinungsforschungsinstitut, die Zeitung und die Leserschaft zu dem Schluss kommen, dass die Vorzugsstimmen der ALP nur etwa 23 % betragen?

Die Antwort auf diese Frage ist ziemlich offensichtlich. Wenn ich 1000 Personen nach dem Zufallsprinzip anrufe und 230 von ihnen sagen, dass sie beabsichtigen, die ALP zu wählen, dann ist es sehr unwahrscheinlich, dass dies die nur 230 Personen der gesamten Wählerschaft sind, die tatsächlich beabsichtigen, die ALP zu wählen. Mit anderen Worten: Wir gehen davon aus, dass die vom Meinungsforschungsinstitut erhobenen Daten ziemlich repräsentativ für die Gesamtbevölkerung sind. Aber wie repräsentativ sind sie? Würde es uns überraschen, wenn wir herausfänden, dass das tatsächliche Wahlergebnis der ALP in den Vorwahlen bei 24 % liegt? 29 %? 37 %? An diesem Punkt beginnt die alltägliche Intuition ein wenig zu versagen. Niemand wäre von 24 % überrascht, und jeder wäre von 37 % überrascht, aber es ist ein bisschen schwierig zu sagen, ob 29 % plausibel ist. Wir brauchen leistungsfähigere Instrumente, als nur auf die Zahlen zu schauen und zu raten.

Die Inferenzstatistik liefert die Werkzeuge, die wir zur Beantwortung dieser Art von Fragen benötigen. Da diese Art von Fragen im Mittelpunkt des wissenschaftlichen Betriebs stehen, nehmen sie den Löwenanteil jedes Einführungskurses in Statistik und Forschungsmethoden ein. Die Theorie der statistischen Schlussfolgerungen baut jedoch auf der Wahrscheinlichkeitstheorie auf. Und der Wahrscheinlichkeitstheorie müssen wir uns nun zuwenden. Die Erörterung der Wahrscheinlichkeitstheorie ist im Wesentlichen eine Hintergrundinformation. In diesem Kapitel geht es nicht um Statistik an sich, und Sie müssen dieses Material nicht so gründlich verstehen wie die anderen Kapitel in diesem Teil des Buches. Da die Wahrscheinlichkeitstheorie jedoch einen großen Teil der Statistik untermauert, lohnt es sich, einige der Grundlagen zu behandeln.