Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Die abschreckende Geschichte des Simpsonschen Paradoxons

Die folgende Geschichte ist wahr (glaube ich!). 1973 hatte die University of California, Berkeley, Probleme mit der Zulassung von Studenten zu ihren Postgraduiertenkursen. Das Problem bestand insbesondere in der geschlechtsspezifischen Aufteilung der Zulassungen, die wie folgt aussah:

	Anzahl der Bewerber	Prozent der Zugelassenen
Männer	8442	44%
Frauen	4321	35%

In Anbetracht dieser Zahlen hatten sie Angst, verklagt zu werden![1] Bei fast 13.000 Bewerbern ist ein Unterschied von 9 % in den Zulassungsraten zwischen Männern und Frauen einfach zu groß, um zufällig zu sein. Die Daten scheinen ziemlich aussagekräftig. Und wenn ich Ihnen sagen würde, dass diese Daten in Wirklichkeit eine schwache Voreingenommenheit zugunsten der Frauen widerspiegeln, würden Sie mich wahrscheinlich für verrückt oder sexistisch halten.

Merkwürdigerweise ist das aber wahr. Als man anfing, die Daten genauer zu untersuchen, kam man zu einem ganz anderen Ergebnis (Bickel et al., 1975). Bei einer Betrachtung der einzelnen Fachbereiche stellte sich heraus, dass die meisten Fachbereiche tatsächlich eine etwas höhere Erfolgsquote bei weiblichen Bewerbern als bei männlichen Bewerbern hatten. Die nachstehende Tabelle zeigt die Zulassungszahlen für die sechs größten Fachbereiche (die Namen der Fachbereiche wurden aus Gründen des Datenschutzes entfernt):

	Männer		Frauen
Fachbereich	Bewerber	Prozent der Zugelassenen	Bewerber	Prozent der Zugelassenen
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	272	6%	341	7%

Bemerkenswert ist, dass die meisten Fachbereiche eine höhere Zulassungsquote für Frauen als für Männer hatten! Die Gesamtzulassungsquote für Frauen an der gesamten Universität war jedoch niedriger als für Männer. Wie kann das sein? Und wie können diese beiden Aussagen gleichzeitig wahr sein?

Die Situation war folgendermaßen. Zunächst fällt auf, dass die Fachbereiche in Bezug auf ihre Zulassungsquoten nicht gleich sind: Einige Fachbereiche (z. B. A, B) neigen dazu, einen hohen Prozentsatz der qualifizierten Bewerber zuzulassen, während andere (z. B. F) dazu neigen, die meisten Bewerber abzulehnen, selbst wenn sie von hoher Qualität sind. Unter den sechs oben dargestellten Fachbereichen fällt auf, dass Fachbereich A am großzügigsten ist, gefolgt von B, C, D, E und F in dieser Reihenfolge. Außerdem bewerben sich Männer und Frauen in der Regel für unterschiedliche Abteilungen. Wenn wir die Fachbereiche nach der Gesamtzahl der männlichen Bewerber ordnen, erhalten wir A > B > D > C > F > E (die „leichten“ Fachbereiche sind fett gedruckt). Im Großen und Ganzen bewarben sich die Männer also eher bei den Fachbereichen, die eine hohe Zulassungsquote aufwiesen. Vergleichen wir dies nun mit der Verteilung der weiblichen Bewerber. Die Rangfolge der Fachbereiche nach der Gesamtzahl der Bewerberinnen ergibt eine ganz andere Reihenfolge C > E > D > F > A > B. Mit anderen Worten, diese Daten scheinen darauf hinzudeuten, dass sich die weiblichen Bewerber eher in „schwierigeren“ Fachbereichen bewarben. Und in der Tat, wenn wir uns Abb. 1 ansehen, so sehen wir, dass dieser Trend systematisch und ziemlich auffällig ist. Dieser Effekt ist als Simpsonsches Paradox bekannt. Er ist nicht alltäglich, aber er tritt im wirklichen Leben auf, und die meisten Menschen sind sehr überrascht, wenn sie ihm zum ersten Mal begegnen. Viele weigern sich sogar zu glauben, dass er real ist. Es ist aber sehr real. Und obwohl in Bezug auf dieses Paradox sehr viel über Statistik lernen kann, möchte ich auf einen viel wichtigeren Punkt hinweisen: Forschung ist schwierig, und es gibt viele subtile und kontraintuitive Fallen, die auf die Unvorsichtigen lauern. Das ist der zweite Grund, warum Wissenschaftler Statistik lieben und warum wir Forschungsmethoden unterrichten. Denn Wissenschaft ist schwierig, und die Wahrheit ist manchmal in komplizierten Daten versteckt.

Abb. 1 Die Berkeley-Zulassungsdaten von 1973. Die Abbildung zeigt die Zulassungsrate für die 85 Fachbereiche, die mindestens eine weibliche Bewerberin hatten, als Funktion des Prozentsatzes der weiblichen Bewerber. Die Darstellung ist eine Replikation von Abbildung 1 aus Bickel et al. (1975). Kreise zeigen Abteilungen mit mehr als 40 Bewerbern, wobei die Fläche des Kreises proportional zur Gesamtzahl der Bewerber ist. Kreuze zeigen Abteilungen mit weniger als 40 Bewerbern.

Bevor wir uns von diesem Thema verabschieden, möchte ich noch auf etwas Entscheidendes hinweisen, das in Vorlesungen über Forschungsmethoden oft übersehen wird. Statistik löst nur einen Teil des Problems. Erinnern Sie sich, dass wir mit der Sorge begonnen haben, dass das Zulassungsverfahren in Berkeley ungerechtfertigt voreingenommen gegenüber weiblichen Bewerbern sein könnte. Als wir uns die „aggregierten“ Daten ansahen, hatte es den Anschein, als würde die Universität Frauen diskriminieren, aber als wir uns das individuelle Verhalten aller Fachbereiche „aufgeschlüsselt“ betrachtet haben, stellte sich heraus, dass die einzelnen Fachbereiche, eher leicht zugunsten von Frauen voreingenommen waren. Die geschlechtsspezifische Verzerrung bei den Gesamtzulassungen wurde durch die Tatsache verursacht, dass Frauen dazu neigten, sich in „schwierigeren“ Fachbereichen zu bewerben. Aus rechtlicher Sicht wäre die Universität damit wahrscheinlich aus dem Schneider. Die Zulassung von Postgraduierten wird auf der Ebene der einzelnen Fachbereiche festgelegt, und dafür gibt es gute Gründe. Auf der Ebene der einzelnen Fachbereiche sind die Entscheidungen mehr oder weniger unvoreingenommen (die schwache Voreingenommenheit zugunsten von Frauen auf dieser Ebene ist gering und nicht in allen Fachbereichen gleich). Da die Universität nicht vorschreiben kann, wer sich an welchen Fachbereichen bewirbt, und die Entscheidung auf der Ebene der Fachbereiche getroffen wird, kann sie kaum für etwaige Verzerrungen verantwortlich gemacht werden, die durch diese Entscheidungen entstehen.

Das ist jedoch nicht die ganze Geschichte: Wenn wir uns nämlich aus einer eher soziologischen und psychologischen Perspektive für diese Unterschiede interessieren, sollten wir uns fragen, warum es so starke Geschlechterunterschiede bei den Bewerbungen gibt. Warum bewerben sich Männer tendenziell häufiger für Ingenieurwissenschaften als Frauen, und warum ist das bei den Geisteswissenschaften umgekehrt? Und warum haben die Fachbereiche, an denen sich eher Frauen bewerben, insgesamt niedrigere Zulassungsquoten als die Fachbereiche, an denen sich eher Männer bewerben? Könnte dies nicht immer noch eine geschlechtsspezifische Voreingenommenheit widerspiegeln, auch wenn jeder einzelne Fachbereich selbst unvoreingenommen ist? Das könnte der Fall sein. Nehmen wir einmal an, dass sich Männer bevorzugt bei den „harten“ Wissenschaften bewerben und Frauen bei den Geisteswissenschaften. Und nehmen wir weiter an, dass der Grund für die niedrigen Zulassungsquoten in den geisteswissenschaftlichen Fächern darin liegt, dass die Geisteswissenschaften finanziell schlechter gestellt sind (Doktorandenstellen sind oft an staatlich finanzierte Forschungsprojekte gebunden). Ist das eine geschlechtsspezifische Voreingenommenheit? Oder nur eine unaufgeklärte Meinung über den Wert der Geisteswissenschaften? Was wäre, wenn jemand auf hoher Ebene in der Regierung die Mittel für die Geisteswissenschaften kürzen würde, weil sie der Meinung sind, dass die Geisteswissenschaften „nutzloses Weiberzeug“ sind. Das scheint ziemlich offensichtlich geschlechtsspezifisch voreingenommen. All dies fällt nicht in den Bereich der Statistik, aber es ist für den Forschungsgegenstand von großer Bedeutung. Wenn Sie an den allgemeinen strukturellen Auswirkungen subtiler geschlechtsspezifischer Verzerrungen interessiert sind, dann sollten Sie sich sowohl die aggregierten als auch die disaggregierten Daten ansehen. Wenn Sie sich für den Entscheidungsfindungsprozess in Berkeley selbst interessieren, dann sind Sie wahrscheinlich primär an den disaggregierten Daten interessiert.

Es gibt eine Menge kritischer Fragen, die man mit Statistik nicht beantworten kann. Die Antworten auf diese Fragen haben jedoch einen großen Einfluss darauf, wie man Daten analysiert und interpretiert. Aus diesem Grund sollten Sie die Statistik immer als ein Werkzeug betrachten, das Ihnen hilft, mehr über Ihre Daten zu erfahren. Nicht mehr und nicht weniger. Sie ist ein leistungsfähiges Werkzeug für diesen Zweck, aber sie ist kein Ersatz für sorgfältige Überlegungen.