Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Standardwerte

Angenommen, mein Freund stellt einen neuen Fragebogen zusammen, mit dem die „Übellaunigkeit“ gemessen werden soll. Der Fragebogen enthält 50 Fragen, mit denen herausgefunden werden soll, in welchem Grad der Beantwortende schlechte Laune hat. Bei einer großen Stichprobe (nehmen wir an, es handelt sich um eine Million Menschen) sind die Daten ziemlich normal verteilt, wobei der Mittelwert der Übellaunigkeit bei 17 von 50 übellaunig beantworteten Fragen liegt und die Standardabweichung 5 beträgt. Wenn ich den Fragebogen ausfülle, beantworte ich dagegen 35 von 50 Fragen schlecht gelaunt. Wie schlecht gelaunt bin ich also? Eine Möglichkeit, darüber nachzudenken, wäre zu sagen, dass ich eine Übellaunigkeit von 35/50 habe, also könnte man sagen, dass ich 70 % schlecht gelaunt bin. Aber das ist ein bisschen seltsam, wenn man darüber nachdenkt. Wenn meine Freundin ihre Fragen etwas anders formuliert hätte, hätten die Leute vielleicht anders geantwortet, so dass sich die Gesamtverteilung der Antworten leicht nach oben oder unten verschieben könnte, je nachdem, wie genau die Fragen gestellt wurden. Ich bin also nur 70 % schlecht gelaunt in Bezug auf diesen Satz von Fragen. Auch wenn es sich um einen sehr guten Fragebogen handelt, ist dies keine sehr informative Aussage.

Eine einfachere Methode ist es, meine Übellaunigkeit zu beschreiben, indem ich mich mit anderen Menschen vergleiche. Schockierenderweise waren in der Stichprobe meines Freundes von 1.000.000 Menschen nur 159 Menschen so schlecht gelaunt wie ich (das ist, ehrlich gesagt, gar nicht so unrealistisch), was darauf hindeutet, dass ich zu den 0,016 % Menschen gehöre, die am schlechtesten gelaunt sind. Das macht viel mehr Sinn als der Versuch, die Rohdaten zu interpretieren. Diese Idee, dass wir meine Übellaunigkeit im Hinblick auf die Gesamtverteilung der Übellaunigkeit der Menschen beschreiben sollten, ist die qualitative Idee, welche die Standardisierung zu erreichen versucht. Eine Möglichkeit, dies zu tun, besteht darin, genau das zu tun, was ich gerade getan habe, und alles in Form von Perzentilen zu beschreiben. Das Problem dabei ist jedoch, dass „es an der Spitze einsam ist“. Nehmen wir an, mein Freund hätte nur eine Stichprobe von 1000 Personen gezogen (immer noch eine ziemlich große Stichprobe für die Zwecke des Tests eines neuen Fragebogens, möchte ich hinzufügen), und dieses Mal einen Mittelwert von, sagen wir, 16 von 50 mit einer Standardabweichung von 5 erhalten. Das Problem ist, dass mit ziemlicher Sicherheit nicht eine einzige Person in dieser Stichprobe so schlecht gelaunt wäre wie ich.

Aber es ist noch nicht alles verloren. Ein anderer Ansatz ist die Umwandlung meines Messwertes in Bezug auf meine schlechte Laune in einen Standardwert, der auch als z-Wert bezeichnet wird. Der Standardwert ist definiert als die Anzahl der Standardabweichungen die mein Messwert über dem Mittelwert liegt. Um es „pseudo-mathematisch“ auszudrücken, wird der Standardwert wie folgt berechnet:

\[\mbox{Standardwert} = \frac{\mbox{Messwert} - \mbox{Mittelwert}}{\mbox{Standardabweichung}}\]

Mathematisch lautet die Gleichung für den z-score

\[z_i = \frac{X_i - \bar{X}}{\hat\sigma}\]

Zurück zu den Daten zur Übellaunigkeit, können wir nun Dani’s Rohwert für Übellaunigkeit in einen standardisierten Wert umwandeln.

\[z = \frac{35 - 17}{5} = 3.6\]

Um diesen Wert zu interpretieren, erinnern Sie sich an die grobe Heuristik, die ich im Abschnitt Standardabweichung angegeben habe, in dem ich feststellte, dass 99,7 % der Werte innerhalb von 3 Standardabweichungen vom Mittelwert liegen sollten. Die Tatsache, dass meine Übellaunigkeit einem z Wert von 3,6 entspricht, zeigt also, dass ich in der Tat sehr schlecht gelaunt bin. Das deutet sogar darauf hin, dass ich schlechter gelaunt bin als 99,98 % aller Menschen. Das hört sich korrekt an.

Neben der Möglichkeit, einen Rohwert im Verhältnis zu einer größeren Grundgesamtheit zu interpretieren (und damit Variablen, die auf willkürlichen Skalen liegen, einen Sinn zu geben), haben Standardwerte eine zweite nützliche Funktion. Standardwerte können in Situationen miteinander verglichen werden, in denen dies mit den Rohwerten nicht möglich ist. Nehmen wir zum Beispiel an, dass mein Freund auch einen anderen Fragebogen hat, der die Extraversion mit einem 24-Punkte-Fragebogen misst. Der Gesamtmittelwert für diese Messung liegt bei 13 mit einer Standardabweichung von 4, und ich habe eine 2. Wie Sie sich vorstellen können, macht es nicht viel Sinn, meinen Rohwert von 2 im Fragebogen zur Extraversion mit meinem Rohwert von 35 im Fragebogen zur Übellaunigkeit zu vergleichen. Die Rohwerte für die beiden Variablen sind „ungefähr“ grundverschiedene Dinge, so dass es so wäre, als würde man Äpfel mit Birnen vergleichen.

Was ist mit den Standardwerten? Nun, das ist anders. Wenn wir die Standardwerte berechnen, erhalten wir z = (35 - 17) / 5 = 3,6 für Übellaunigkeit und z = (2 - 13) / 4 = -2,75 für Extravertiertheit. Diese beiden Zahlen können miteinander verglichen werden.[1] Ich bin viel weniger extravertiert als die meisten Menschen (z = -2,75) und viel schlechter gelaunt als die meisten Menschen (z = 3,6). Aber das Ausmaß meiner Ungewöhnlichkeit ist bei der Übellaunigkeit viel extremer, da 3,6 eine größere Zahl ist als 2,75. Da jede standardisierte Punktzahl eine Aussage darüber ist, wo eine Beobachtung relativ zu ihrer eigenen Population liegt, ist es möglich, standardisierte Punktzahlen für völlig unterschiedliche Variablen zu vergleichen.