Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Probabilistisches Schlussfolgern durch rationale Akteure

Aus einer Bayesschen Perspektive geht es bei der statistischen Inferenz um die Revision von Überzeugungen. Ich beginne mit einer Reihe von Kandidatenhypothesen h über die Welt. Ich weiß nicht, welche dieser Hypothesen wahr ist, aber ich habe einige Überzeugungen darüber, welche Hypothesen plausibel sind und welche nicht. Wenn ich die Daten beobachte, d, muss ich diese Überzeugungen revidieren. Wenn die Daten mit einer Hypothese übereinstimmen, wird mein Glaube an diese Hypothese gestärkt. Wenn die Daten nicht mit der Hypothese übereinstimmen, wird mein Glaube an diese Hypothese geschwächt. Am Ende dieses Abschnitts werde ich genau beschreiben, wie die Bayessche Argumentation funktioniert, aber zunächst möchte ich ein einfaches Beispiel durchspielen, um die wichtigsten Ideen vorzustellen. Betrachten Sie das folgende Argumentationsproblem.

Ich habe einen Regenschirm dabei. Glauben Sie, dass es regnen wird?

In dieser Aussage habe ich Ihnen eine einzige Information vorgelegt (d = Ich trage den Regenschirm), und ich bitte Sie, mir Ihre Überzeugung oder Hypothese darüber mitzuteilen, ob es regnet. Sie haben zwei Alternativen, h: entweder es wird heute regnen oder nicht. Wie sollten Sie diese Aufgabe lösen?

a-priori-Wahrscheinlichkeiten: was Sie vorher geglaubt haben

Das Erste, was Sie tun müssen, ist zu ignorieren, was ich Ihnen über den Regenschirm gesagt habe, und Ihre bestehenden Überzeugungen über Regen aufzuschreiben. Das ist wichtig. Wenn Sie ehrlich beschreiben wollen, wie Ihre Überzeugungen im Lichte neuer Beweise (Daten) revidiert wurden, dann müssen Sie etwas darüber sagen, was Sie glaubten, bevor diese Daten erschienen! Für wie wahrscheinlich halten Sie es, dass es heute regnen wird? Sie wissen wahrscheinlich, dass ich in Australien lebe und dass es in weiten Teilen Australiens heiß und trocken ist. Die Stadt Adelaide, in der ich lebe, hat ein mediterranes Klima, das dem in Südkalifornien, Südeuropa oder Nordafrika sehr ähnlich ist. Da ich dies im Januar schreibe, können Sie davon ausgehen, dass es mitten im Sommer ist. Vielleicht haben Sie sogar einen kurzen Blick auf Wikipedia geworfen und herausgefunden, dass es in Adelaide an den 31 Tagen im Januar durchschnittlich 4,6 Tage regnet. Ohne etwas anderes zu wissen, könnten Sie zu dem Schluss kommen, dass die Wahrscheinlichkeit, dass es im Januar in Adelaide regnet, bei etwa 15 % liegt und die Wahrscheinlichkeit eines trockenen Tages bei 85 %. Wenn dies wirklich das ist, was Sie über die Regenfälle in Adelaide glauben (und jetzt, wo ich es Ihnen gesagt habe, wette ich, dass dies wirklich ist, was Sie glauben), dann ist das, was ich hier geschrieben habe, Ihre a-priori-Verteilung, geschrieben P(h):

Hypothese

Grad der Überzeugung

Regentag

0.15

Trockener Tag

0.85

Likelihood: Theorien über die Daten

Um das Argumentationsproblem zu lösen, brauchen Sie eine Theorie über mein Verhalten. Wann trägt Dani einen Regenschirm? Sie können sich denken, dass ich kein kompletter Idiot bin,[1] und ich versuche, Regenschirme nur an Regentagen mitzunehmen. Andererseits wissen Sie auch, dass ich kleine Kinder habe. Es würde Sie daher nicht überraschen, wenn Sie wüssten, dass ich bei solchen Dingen ziemlich vergesslich bin. Nehmen wir an, dass ich an Regentagen meinen Regenschirm etwa 30 % der Zeit nicht vergesse (ich bin wirklich schlecht darin). Aber nehmen wir an, dass ich an trockenen Tagen nur etwa 5 % wahrscheinlich einen Regenschirm dabei habe. Man könnte also eine kleine Tabelle wie diese aufstellen:

Hypothese

Regenschirm

Kein Regenschirm

Regentag

0.30

0.70

Trockener Tag

0.05

0.95

Es ist wichtig, sich daran zu erinnern, dass jede Zelle in dieser Tabelle Ihre Überzeugungen darüber beschreibt, welche Daten d beobachtet werden, wenn eine bestimmte Hypothese h zutrifft. Diese „bedingte Wahrscheinlichkeit“ wird P(d|h) geschrieben, was man als „die Wahrscheinlichkeit von d gegeben h“ lesen kann. In der Bayesschen Statistik wird dies als Likelihood (manchmal auch als inverse Wahrscheinlichkeit oder „Plausibilität“) der Daten d gegeben die Hypothese h bezeichnet. [2]

Die kombinierte Wahrscheinlichkeit von Daten und Hypothese

Zu diesem Zeitpunkt sind alle Elemente vorhanden. Nachdem Sie die a-priori-Wahrscheinlichkeit und die Likelihood aufgeschrieben haben, verfügen Sie über alle Informationen, die Sie für die Bayessche Argumentation benötigen. Nun stellt sich die Frage: wie verwenden wir diese Informationen? Wie sich herausstellt, gibt es eine sehr einfache Gleichung, die wir hier verwenden können, aber es ist wichtig, dass Sie verstehen, warum wir sie verwenden, also werde ich versuchen, sie aus grundlegenderen Ideen aufzubauen.

Beginnen wir mit einer der Regeln der Wahrscheinlichkeitsrechnung. Ich habe sie schon vor langer Zeit in Tab. 6 aufgelistet, aber ich habe damals keine große Sache daraus gemacht und Sie haben sie wahrscheinlich ignoriert. Die fragliche Regel ist diejenige, die sich mit der Wahrscheinlichkeit befasst, dass zwei Dinge wahr sind. In unserem Beispiel möchten Sie vielleicht die Wahrscheinlichkeit berechnen, dass es heute regnet (d. h., die Hypothese h ist wahr) und ich einen Regenschirm trage (d. h., die Daten d werden beobachtet). Die kombinierte Wahrscheinlichkeit der Hypothese und der Daten wird P(d, h) geschrieben, und man kann sie berechnen, indem man den Prior P(h) mit der Likelihood P(d|h) multipliziert. Mathematisch gesehen, sagen wir das:

P(d, h) = P(d|h) P(h)

Wie hoch ist also die Wahrscheinlichkeit, dass heute ein Regentag ist und ich daran denke, einen Regenschirm mitzunehmen? Wie wir bereits besprochen haben, sagt uns die a-priori-Verteilung, dass die Wahrscheinlichkeit für einen Regentag 15 % beträgt, und die Wahrscheinlichkeit, dass ich an einem Regentag an meinen Regenschirm denke, beträgt 30 %. Die Wahrscheinlichkeit, dass beide Dinge wahr sind, wird durch Multiplikation der beiden Wahrscheinlichkeiten berechnet:

\[\begin{split}\begin{aligned} P(\mbox{Regentag}, \mbox{Regenschirm}) & = & P(\mbox{Regenschirm} | \mbox{Regentag}) \times P(\mbox{Regentag}) \\ & = & 0.30 \times 0.15 \\ & = & 0.045\end{aligned}\end{split}\]

Mit anderen Worten: Bevor man etwas über die tatsächlichen Ereignisse erfährt, denkt man, dass die Wahrscheinlichkeit, dass es heute regnet, 4,5 % beträgt und dass ich an einen Regenschirm denken werde. Aber es gibt natürlich vier mögliche Dinge, die passieren könnten, oder? Wiederholen wir also die Übung für alle vier. Wenn wir das tun, erhalten wir die folgende Tabelle:

Regenschirm

Kein Regenschirm

Regentag

0.0450

0.1050

Trockener Tag

0.0425

0.8075

In dieser Tabelle sind alle Informationen darüber enthalten, welche der vier Möglichkeiten wahrscheinlich sind. Um ein vollständiges Bild zu erhalten, ist es jedoch hilfreich, die Zeilensummen und Spaltensummen zu addieren. So erhalten wir diese Tabelle:

Regenschirm

Kein Regenschirm

Insgesamt

Regentag

0.0450

0.1050

0.15

Trockener Tag

0.0425

0.8075

0.85

Insgesamt

0.0875

0.9125

1.00

Dies ist eine sehr nützliche Tabelle, es lohnt sich also, einen Moment darüber nachzudenken, was all diese Zahlen uns sagen. Zunächst fällt auf, dass die Zeilensummen uns überhaupt nichts Neues sagen. Die erste Zeile sagt uns zum Beispiel, dass die Wahrscheinlichkeit, dass es heute regnet, 15 % beträgt, wenn wir die Sache mit dem Regenschirm ignorieren. Das ist natürlich nicht überraschend, denn das ist unsere Vorhersage.[3] Das Wichtige ist nicht die Zahl selbst. Wichtig ist vielmehr, dass sie uns eine gewisse Sicherheit gibt, dass unsere Berechnungen sinnvoll sind! Schauen Sie sich nun die Spaltensummen an und stellen Sie fest, dass sie uns etwas sagen, was wir noch nicht explizit gesagt haben. Genauso wie die Zeilensummen die Regenwahrscheinlichkeit angeben, sagen die Spaltensummen etwas über die Wahrscheinlichkeit aus, dass ich einen Regenschirm dabei habe. Die erste Spalte sagt uns, dass die Wahrscheinlichkeit, dass ich einen Regenschirm mitnehme, im Durchschnitt 8,75 % beträgt (d. h. unabhängig davon, ob es regnet oder nicht). Beachten Sie schließlich, dass die Summe aller vier logisch möglichen Ereignisse 1 ergibt. Mit anderen Worten: Was wir aufgeschrieben haben, ist eine Wahrscheinlichkeitsverteilung, die über alle möglichen Kombinationen von Daten und Hypothese definiert ist.

Da diese Tabelle so nützlich ist, möchte ich sicherstellen, dass Sie verstehen, was die einzelnen Elemente bedeuten und wie sie geschrieben werden:

Regenschirm

Kein Regenschirm

Regentag

P(Regenschirm, Regentag)

P(Kein Regenschirm, Regentag)

P(Regentag)

Trockener Tag

P(Regenschirm, trockener Tag)

P(Kein Regenschirm, trockener Tag)

P(trockener Tag)

P(Regenschirm)

P(Kein Regenschirm)

Schließlich sollten wir die „richtige“ statistische Notation verwenden. Beim Regentagsproblem beziehen sich die Daten auf die Beobachtung, ob ich einen Regenschirm dabei habe oder nicht. * d*1 bezieht sich also auf die Möglichkeit, dass Sie mich mit einem Regenschirm beobachten, und d2 bezieht sich darauf, dass Sie mich ohne Regenschirm beobachten. In ähnlicher Weise ist h1 Ihre Hypothese, dass es heute regnet, und h2 ist die Hypothese, dass es nicht regnet. Mit dieser Notation sieht die Tabelle wie folgt aus:

d1

d2

h1

P(h1, d1)

P(h1, d2)

P(h1)

h2

P(h2, d1)

P(h2, d2)

P(h2)

P(d1)

P(d2)

Aktualisieren der Überzeugungen unter Verwendung der Bayes-Regel

Die Tabelle, die wir im letzten Abschnitt erstellt haben, ist ein sehr leistungsfähiges Instrument zur Lösung des Regentagsproblems, weil sie alle vier logischen Möglichkeiten berücksichtigt und genau angibt, wie wahrscheinlich jede von ihnen ist, bevor man irgendwelche Daten erhält. Nun ist es an der Zeit zu überlegen, was mit unseren Überzeugungen geschieht, wenn wir die Daten tatsächlich erhalten. Bei dem Problem mit dem Regentag wird Ihnen gesagt, dass ich wirklich einen Regenschirm trage. Das ist ein etwas überraschendes Ereignis. Laut unserer Tabelle beträgt die Wahrscheinlichkeit, dass ich einen Regenschirm dabei habe, nur 8,75 %. Aber das macht doch Sinn, oder? Ein Mann, der an einem Sommertag in einer heißen, trockenen Stadt einen Regenschirm mit sich führt, ist ziemlich ungewöhnlich, und deshalb haben Sie das wirklich nicht erwartet. Dennoch zeigen die Daten, dass es wahr ist. Egal, für wie unwahrscheinlich Sie es gehalten haben, müssen Sie jetzt Ihre Überzeugungen anpassen, um der Tatsache Rechnung zu tragen, dass Sie jetzt wissen, dass ich einen Regenschirm habe.[4] Um dieses neue Wissen widerzuspiegeln, muss unsere überarbeitete Tabelle die folgenden Zahlen enthalten:

Regenschirm

Kein Regenschirm

Regentag

0

Trockener Tag

0

Insgesamt

1

0

Mit anderen Worten, die Fakten haben jede Möglichkeit von „kein Regenschirm“ ausgeschlossen, also müssen wir Nullen in jede Zelle der Tabelle setzen, die impliziert, dass ich keinen Regenschirm trage. Außerdem wissen Sie genau, dass ich einen Regenschirm bei mir trage, also muss die Spaltensumme auf der linken Seite 1 sein, um die Tatsache korrekt zu beschreiben, dass P(Regenschirm) = 1.

Welche zwei Zahlen sollen wir in die leeren Zellen einsetzen? Auch hier sollten wir uns keine Gedanken über die Mathematik machen, sondern unsere Intuition benutzen. Als wir unsere Tabelle das erste Mal ausfüllten, stellte sich heraus, dass diese beiden Zellen fast identische Zahlen enthielten. Wir haben ausgerechnet, dass die gemeinsame Wahrscheinlichkeit für „Regen und Regenschirm“ 4,5 % und die gemeinsame Wahrscheinlichkeit für „trocken und Regenschirm“ 4,25 % beträgt. Mit anderen Worten: Bevor ich Ihnen gesagt habe, dass ich tatsächlich einen Regenschirm trage, hätten Sie gesagt, dass die Wahrscheinlichkeit dieser beiden Ereignisse fast identisch ist. Aber beachten Sie, dass beide dieser Möglichkeiten mit der Tatsache übereinstimmen, dass ich tatsächlich einen Regenschirm bei mir habe. Aus der Perspektive dieser beiden Möglichkeiten hat sich sehr wenig geändert. Ich hoffe, Sie stimmen mir zu, dass es immer noch wahr ist, dass diese beiden Möglichkeiten gleichermaßen plausibel sind. Was wir also in unserer endgültigen Tabelle erwarten, sind einige Zahlen, welche die Tatsache reflektieren, dass „Regen und Regenschirm“ etwas plausibler ist als „trocken und Regenschirm“, und gleichzeitig sicherstellen, dass sich die Zahlen in der Tabelle addieren. Vielleicht so etwas wie dies?

Regenschirm

Kein Regenschirm

Regentag

0.514

0

Trockener Tag

0.486

0

Insgesamt

1

0

Diese Tabelle sagt Ihnen, dass Sie, nachdem Sie erfahren haben, dass ich einen Regenschirm dabei habe, glauben, dass die Wahrscheinlichkeit, dass es heute regnet, bei 51,4 % liegt und bei 48,6 % dass es nicht regnet. Das ist die Antwort auf unser Problem! Die a-posteriori-Wahrscheinlichkeit von Regen P(h|d), wenn ich einen Regenschirm trage, ist 51,4 %

Wie habe ich diese Zahlen berechnet? Sie können es sich wahrscheinlich denken. Um herauszufinden, dass die Wahrscheinlichkeit für „Regen“ bei 0,514 liegt, habe ich einfach die Wahrscheinlichkeit von 0,045 für „Regen und Regenschirm“ durch die Wahrscheinlichkeit von 0,0875 für „Regenschirm“ geteilt. Das Ergebnis ist eine Tabelle, die sowohl unserem Bedürfnis entspricht, dass die Summe 1 ergibt, als auch unserem Bedürfnis, die relative Plausibilität der beiden Ereignisse, die tatsächlich mit den Daten übereinstimmen, nicht zu beeinträchtigen. Um dasselbe mit Hilfe eines ausgefallenen statistischen Jargons zu sagen, habe ich hier die kombinierte Wahrscheinlichkeit von Hypothese und Daten P(d, h) durch die Randwahrscheinlichkeit der Daten P(d) geteilt, und so erhalten wir die a-posteriori-Wahrscheinlichkeit der Hypothese unter Berücksichtigung der beobachteten Daten. Um dies in eine Gleichung zu fassen:[5]

\[P(h | d) = \frac{P(d,h)}{P(d)}\]

Erinnern Sie sich jedoch an das, was ich zu Beginn des letzten Abschnitts gesagt habe, nämlich dass die gemeinsame Wahrscheinlichkeit P(d, h) durch Multiplikation des Prior P(h) mit der Wahrscheinlichkeit P(d|h) berechnet wird. Im wirklichen Leben sind die Prioren und die Wahrscheinlichkeit die Dinge, von denen wir wissen, wie man sie aufschreibt, also setzen wir sie wieder in die Gleichung ein. Daraus ergibt sich die folgende Formel für die a-posteriori-Wahrscheinlichkeit

\[P(h | d) = \frac{P(d|h) P(h)}{P(d)}\]

Und diese Formel ist bekannt als Bayes-Regel. Sie beschreibt, wie ein Lernender mit Vorannahmen über die Plausibilität verschiedener Hypothesen beginnt, und sagt Ihnen, wie diese Vorannahmen angesichts der Daten revidiert werden sollten. Im Bayesschen Paradigma ergeben sich alle statistischen Schlussfolgerungen aus dieser einen einfachen Regel.