Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Andere Möglichkeiten der Inferenz

Ein anderer Aspekt, in dem dieses Buch unvollständig bleibt, ist, dass es sich ziemlich stark auf eine sehr enge und altmodische Sichtweise der Inferenzstatistik konzentriert. In Kapitel Schätzen unbekannter Größen anhand einer Stichprobe habe ich ein wenig über die Idee von unverzerrten Schätzern, Stichprobenverteilungen und so weiter gesprochen. In Kapitel Das Überprüfen von Hypothesen habe ich über die Theorie der Nullhypothesen-Signifikanztests und p-Werte gesprochen (frequentistische Statistik). Diese Ideen gibt es seit dem frühen 20. Jahrhundert, und die Werkzeuge, über die ich in diesem Buch gesprochen habe, beruhen hauptsächlich auf den theoretischen Ideen aus dieser Zeit. Ich habe mich verpflichtet gefühlt, mich auf diese Methoden zu konzentrieren, weil die große Mehrzahl der Datenanalyse-Methoden in der Wissenschaft ebenfalls auf diesen Ideen beruht. Die Theorie der Statistik ist jedoch nicht auf diese Methoden beschränkt, und obwohl jeder sie wegen ihrer praktischen Bedeutung kennen sollte, stellen diese Ideen in vielerlei Hinsicht keine optimale Praxis für die heutige Datenanalyse dar. Ich bin besonders froh darüber, dass es mir gelungen ist, ein wenig darüber hinauszugehen. Das Kapitel Bayessche Statistik stellt nun die Bayessche Perspektive in angemessener Ausführlichkeit dar, aber das Buch insgesamt ist immer noch ziemlich stark auf die frequentistische Orthodoxie ausgerichtet. Darüber hinaus gibt es eine Reihe von anderen Ansätzen zur Inferenz, die erwähnenswert sind:

  • Bootstrapping. Immer wenn ich in diesem Buch einen Hypothesentest vorstelle, neige ich dazu, einfach Behauptungen aufzustellen wie „die Stichprobenverteilung für BLAH ist eine t-Verteilung“ oder etwas Ähnliches. In einigen Fällen habe ich sogar versucht, diese Behauptung zu rechtfertigen. Als ich zum Beispiel in Kapitel Analyse kategorialer Daten über χ²-Tests sprach, verwies ich auf die bekannte Beziehung zwischen Normalverteilungen und χ²-Verteilungen (siehe Kapitel Einführung in die Wahrscheinlichkeitsrechnung), um zu erklären, wie wir zu der Annahme kommen, dass die Stichprobenverteilung der Anpassungsgüte-Statistik χ² ist. Es ist jedoch auch so, dass viele dieser Stichprobenverteilungen, nun ja, falsch sind. Der χ²-Test ist ein gutes Beispiel dafür. Er beruht auf einer Annahme über die Verteilung Ihrer Daten, die bei kleinen Stichproben bekanntermaßen falsch ist! Zu Beginn des 20. Jahrhunderts gab es nicht viel, was man in dieser Situation tun konnte. Statistiker hatten mathematische Analysen entwickelt, die besagten, dass „unter den Annahmen BLAH über die Daten die Stichprobenverteilung ungefähr BLAH ist“, und das war so ziemlich das Beste, was man tun konnte. In vielen Fällen hatten sie nicht einmal das. Es gibt viele Datenanalyse-Situationen, für die niemand eine mathematische Lösung für die benötigten Stichprobenverteilungen hatte. Und so gab es bis ins späte 20. Jahrhundert hinein die entsprechenden Tests nicht oder sie funktionierten nicht. Mit dem Aufkommen von Computern hat sich das aber geändert. Es gibt viele ausgefallene und weniger ausgefallene Tricks, mit denen man das Problem umgehen kann. Der einfachste davon ist das Bootstrapping, und in seiner einfachsten Form ist es unglaublich simpel. Dabei simulieren Sie die Ergebnisse Ihres Experiments sehr oft unter der doppelten Annahme, dass (a) die Nullhypothese wahr ist und (b) die unbekannte Populationsverteilung Ihren Rohdaten ziemlich ähnlich ist. Mit anderen Worten: Statt davon auszugehen, dass die Daten (zum Beispiel) normal verteilt sind, nehmen Sie einfach an, dass die Grundgesamtheit genauso aussieht wie Ihre Stichprobe, und verwenden Sie dann Computer, um die Stichprobenverteilung für Ihre Teststatistik zu simulieren, wenn diese Annahme zutrifft. Obwohl das Bootstrapping auf einer etwas zweifelhaften Annahme beruht (d. h. die Verteilung der Grundgesamtheit ist dieselbe wie die der Stichprobe!), ist es eine schnelle und einfache Methode, die in der Praxis für viele Datenanalyseprobleme bemerkenswert gut funktioniert.

  • Kreuzvalidierung. Eine Frage, die in meinen Statistikkursen hin und wieder auftaucht, meist von einem Studenten, der provozieren will, lautet: „Warum kümmern wir uns überhaupt um die Inferenzstatistik? Warum beschreiben Sie nicht einfach Ihre Stichprobe?“ Die Antwort auf diese Frage lautet in der Regel in etwa so: „Weil unser eigentliches Interesse als Wissenschaftler nicht die spezifische Stichprobe ist, die wir in der Vergangenheit beobachtet haben, sondern wir wollen Vorhersagen über Daten machen, die wir in der Zukunft beobachten könnten“. Viele Probleme bei statistischen Schlussfolgerungen ergeben sich aus der Tatsache, dass wir immer davon ausgehen, dass die Zukunft ähnlich sein wird wie die Vergangenheit, sich aber ein wenig von ihr unterscheidet. Oder, allgemeiner ausgedrückt, neue Daten werden nicht ganz so sein wie alte Daten. In vielen Situationen versuchen wir, mathematische Regeln abzuleiten, die uns helfen, die Schlussfolgerungen zu ziehen, die für neue Daten am wahrscheinlichsten richtig sind, anstatt die Aussagen zu wählen, die alte Daten am besten beschreiben. Nehmen wir zum Beispiel zwei Modelle A und B und einen Datensatz X, den Sie heute gesammelt haben, und versuchen Sie, das Modell zu wählen, das einen neuen Datensatz Y, den Sie morgen sammeln werden, am besten beschreibt. Manchmal ist es sinnvoll, den Prozess zu simulieren, und genau das tut die Kreuzvalidierung. Dazu teilen Sie Ihren Datensatz in zwei Teilmengen, X1 und X2. Verwenden Sie die Teilmenge X1 zum Trainieren des Modells (z. B. zum Schätzen von Regressionskoeffizienten), und bewerten Sie dann die Leistung des Modells anhand der anderen Teilmenge X2. Auf diese Weise erhalten Sie ein Maß dafür, wie gut das Modell sich von einem alten Datensatz auf einen neuen verallgemeinern lässt, und das ist oft ein besseres Maß dafür, wie gut Ihr Modell ist, als wenn Sie es nur an den vollständigen Datensatz X anpassen.

  • Robuste Statistiken. Das Leben ist chaotisch, und nichts funktioniert wirklich so, wie es soll. Das gilt für die Statistik genauso wie für alles andere. Wenn wir versuchen, Daten zu analysieren, haben wir oft mit allen möglichen Problemen zu tun, bei denen die Daten einfach unordentlicher sind, als sie sein sollten. Variablen, die normalverteilt sein sollen, sind nicht tatsächlich normalverteilt, Beziehungen, die linear sein sollen, sind nicht wirklich linear, und einige der Beobachtungen in Ihrem Datensatz sind mit ziemlicher Sicherheit Müll (d. h., sie messen nicht das, was sie messen sollen). Diese Unordnung wird in den meisten statistischen Theorien, die ich in diesem Buch dargestellt habe, ignoriert. Ein Problem zu ignorieren bedeutet jedoch nicht, es zu lösen. Manchmal ist es sogar in Ordnung, das Durcheinander zu ignorieren, denn einige Arten von statistischen Instrumenten sind „robust“, d. h., wenn die Daten nicht Ihren theoretischen Annahmen entsprechen, funktionieren sie trotzdem noch recht gut. Andere Arten von statistischen Instrumenten sind nicht robust, und selbst kleine Abweichungen von den theoretischen Annahmen führen dazu, dass sie nicht funktionieren. Die robuste Statistik ist ein Zweig der Statistik, der sich mit dieser Frage befasst, und es wird über Dinge wie den „Zusammenbruchspunkt“ einer Statistik gesprochen. Das heißt, wie unordentlich müssen Ihre Daten sein, damit die Statistik nicht mehr vertrauenswürdig ist? Ich habe dies bereits an einigen Stellen angesprochen. Der Mittelwert ist nicht ein robuster Schätzer für die zentrale Tendenz einer Variablen, der Median hingegen schon. Nehmen wir an, ich würde Ihnen sagen, dass das Alter meiner fünf besten Freunde 34, 39, 31, 43 und 4003 Jahre beträgt. Was denken Sie, wie alt sie im Durchschnitt sind? Was ist also der wahre Mittelwert der Population? Wenn Sie den Stichprobenmittelwert als Schätzer für den Populationsmittelwert verwenden, erhalten Sie eine Antwort von 830 Jahren. Wenn Sie den Median der Stichprobe als Schätzer für den Mittelwert der Grundgesamtheit verwenden, erhalten Sie eine Antwort von 39 Jahren. Beachten Sie, dass Sie, obwohl Sie im zweiten Fall „technisch“ das Falsche tun (Verwendung des Medians zur Schätzung des Mittelwerts), tatsächlich eine bessere Antwort erhalten. Das Problem ist hier, dass eine der Beobachtungen ganz offensichtlich eine Lüge ist. Ich habe keinen Freund, der 4003 Jahre alt ist. Wahrscheinlich ist es ein Tippfehler, ich wollte wahrscheinlich 43 schreiben. Aber was wäre, wenn ich 53 statt 43 oder 34 statt 43 getippt hätte? Könnten Sie sicher sein, dass es sich um einen Tippfehler handelt oder nicht? Manchmal sind die Fehler in den Daten so subtil, dass man sie nicht einfach mit einem Blick auf die Stichprobe erkennen kann. Aber es sind trotzdem Fehler, die Ihre Daten verunreinigen und Ihre Schlussfolgerungen beeinflussen. Die robuste Statistik befasst sich damit, wie man sichere Schlussfolgerungen ziehen kann, selbst wenn man mit Verunreinigungen konfrontiert ist, die man nicht kennt. Das ist eine ziemlich coole Sache.