Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Maße der zentralen Tendenz

Das Erstellen von Diagrammen, wie ich es in Abb. 20 getan habe, ist ein ausgezeichnetes Mittel, um das Wesentliche dessen zu vermitteln, was die Daten zu sagen versuchen. Es ist oft sehr nützlich, die Daten in ein paar einfachen „zusammenfassenden“ Statistiken zusammenzufassen. In den meisten Fällen ist das erste, was Sie berechnen möchten, ein Maß für die zentrale Tendenz. Das heißt, Sie möchten etwas darüber wissen, wo der „Durchschnitt“ oder die „Mitte“ Ihrer Daten liegt. Die drei am häufigsten verwendeten Maße sind der Mittelwert, der Median und der Modus. Ich werde sie nacheinander erklären und dann erörtern, wann sie nützlich sind.

Der Mittelwert

Der Mittelwert einer Reihe von Beobachtungen ist einfach ein normaler, altmodischer Durchschnitt. Man addiert alle Werte und teilt sie dann durch die Gesamtzahl der Werte. Die ersten fünf AFL-Gewinnmargen waren 56, 31, 56, 8 und 32, also ist der Mittelwert dieser Beobachtungen:

\[\frac{56 + 31 + 56 + 8 + 32}{5} = \frac{183}{5} = 36.60\]

Natürlich ist diese Definition des Mittelwerts für niemanden etwas Neues. Durchschnittswerte (d. h. Mittelwerte) werden im täglichen Leben so häufig verwendet, dass sie einem ziemlich vertraut sind. Da das Konzept des Mittelwerts jedoch bereits jedem bekannt ist, möchte ich dies zum Anlass nehmen, einige der mathematischen Notationen einzuführen, die Statistiker zur Beschreibung dieser Berechnung verwenden, und zu erläutern, wie die Berechnungen in jamovi durchgeführt werden würden.

Die erste Notation, die wir einführen müssen, ist N, die wir verwenden werden, um die Anzahl der Beobachtungen zu bezeichnen, über die wir den Durchschnitt bilden (in diesem Fall N = 5). Als Nächstes müssen wir den Beobachtungen selbst eine Bezeichnung zuweisen. Traditionell wird dafür X verwendet, und mit tiefgestellten Indizes wird angegeben, um welche Beobachtung es sich tatsächlich handelt. Das heißt, wir verwenden X1 für die erste Beobachtung, X2 für die zweite Beobachtung, und so weiter bis hin zu XN für die letzte Beobachtung. Oder, um das Gleiche etwas abstrakter auszudrücken, verwenden wir Xi für die i-te Beobachtung. Um die Notation zu verdeutlichen, sind in der folgenden Tabelle die 5 Beobachtungen in der Variablen afl.margins aufgelistet, zusammen mit dem mathematischen Symbol, das sich auf sie bezieht, und dem tatsächlichen Wert, dem die Beobachtung entspricht:

die Beobachtung

ihr Symbol

der beobachtete Wert

Gewinnspanne, Spiel 1

X1

56 Punkte

Gewinnspanne, Spiel 2

X2

31 Punkte

Gewinnspanne, Spiel 3

X3

56 Punkte

Gewinnspanne, Spiel 4

X4

8 Punkte

Gewinnspanne, Spiel 5

X5

32 Punkte

Okay, versuchen wir nun, eine Formel für den Mittelwert zu schreiben. Traditionsgemäß verwenden wir als Notation für den Mittelwert. Die Berechnung des Mittelwerts könnte also mit der folgenden Formel ausgedrückt werden:

\[\bar{X} = \frac{X_1 + X_2 + \ldots + X_{N-1} + X_N}{N}\]

Diese Formel ist völlig korrekt, aber sie ist furchtbar lang, also benutzen wir das Summensymbol Σ, um sie abzukürzen.[1] Wenn ich die ersten fünf Beobachtungen zusammenzählen möchte, könnte ich die Summe auf die lange Art schreiben: X1 + X2 + X3 + X4 + X5 oder ich kann das Summensymbol verwenden, um es auf diese Weise abzukürzen:

\[\sum_{i=1}^5 X_i\]

Wörtlich genommen könnte man dies als „die Summe aller i Werte von 1 bis 5 des Wertes Xi“ lesen. Aber im Grunde bedeutet es „die Summe der ersten fünf Beobachtungen“. Auf jeden Fall können wir diese Notation verwenden, um die Formel für den Mittelwert aufzuschreiben, die wie folgt aussieht:

\[\bar{X} = \frac{1}{N} \sum_{i=1}^N X_i\]

Ehrlich gesagt kann ich mir nicht vorstellen, dass all diese mathematische Notation dazu beiträgt, das Konzept des Mittelwerts zu verdeutlichen. Im Grunde ist es nur eine schicke Art, das Gleiche auszudrücken, wie ich in Worten: alle Werte addieren und dann durch die Gesamtzahl der Posten teilen. Aber das ist eigentlich nicht der Grund, warum ich so ins Detail gegangen bin. Mein Ziel war es, dafür zu sorgen, dass jeder, der dieses Buch liest, sich über die Notation im Klaren ist, die wir im gesamten Buch verwenden werden: für den Mittelwert, Σ für die Idee der Summierung, Xi für die i-te Beobachtung und N für die Gesamtzahl der Beobachtungen. Wir werden diese Symbole häufig wiederverwenden, daher ist es wichtig, dass Sie sie gut genug verstehen, um die Gleichungen „lesen“ zu können und zu erkennen, dass es nur heißt: „Addiere viele Dinge und teile dann durch ein anderes Ding“.

Berechnen des Mittelwerts in jamovi

Okay, das ist die Mathematik. Wie bringen wir nun den magischen Rechenkasten dazu, die Arbeit für uns zu erledigen? Wenn die Anzahl der Beobachtungen groß wird, ist es viel einfacher, diese Art von Berechnungen mit einem Computer durchzuführen. Um den Mittelwert aus allen Daten zu berechnen, können wir jamovi verwenden. Der erste Schritt besteht darin, auf die Schaltfläche Exploration und dann auf Descriptives zu klicken. Dann können Sie die Variable afl.margins markieren und auf klicken, um sie in die Variable Variables box zu verschieben. Sobald Sie dies getan haben, erscheint auf der rechten Seite des Bildschirms eine Tabelle Descriptives mit den wichtigsten deskriptivstatistischen Werten; siehe Abb. 7.

AFL 2010 Gewinnspanne-Daten

Abb. 7 Die wichtigsten deskriptivstatistischen Werte für die Gewinnspanne der AFL 2010 (die Variable afl.margins).

Wie Sie in Abb. 7 sehen können, beträgt der Mittelwert für die Variable afl.margins 35,30. Weitere Informationen sind die Gesamtzahl der Beobachtungen (N = 176), die Anzahl der fehlenden Werte (keine) sowie die Median-, Minimum- und Maximumwerte für die Variable.

Der Median

Das zweite Maß für die zentrale Tendenz, das häufig verwendet wird, ist der Median, und er ist noch einfacher zu beschreiben als der Mittelwert. Der Median einer Reihe von Beobachtungen ist einfach der mittlere Wert. Stellen wir uns vor, wir interessieren uns nur für die ersten 5 Gewinnspannen der AFL: 56, 31, 56, 8 und 32. Um den Median zu ermitteln, sortieren wir diese Zahlen in aufsteigender Reihenfolge:

8, 31, 32, 56, 56

Es ist offensichtlich, dass der Medianwert dieser 5 Beobachtungen 32 ist, da dies der mittlere Wert in der sortierten Liste ist (ich habe ihn fett gedruckt, damit er noch deutlicher wird). Einfache Sache. Was aber tun, wenn wir uns für die ersten 6 Spiele und nicht für die ersten 5 interessieren? Da das sechste Spiel der Saison einen Vorsprung von 14 Punkten hatte, lautet unsere sortierte Liste jetzt:

8, 14, 31, 32, 56, 56

und es gibt zwei mittlere Zahlen, 31 und 32. Der Median ist definiert als der Durchschnitt dieser beiden Zahlen, der natürlich 31,5 ist. Wie gesagt, es ist sehr mühsam, dies von Hand zu machen, wenn man viele Zahlen hat. Im wirklichen Leben berechnet natürlich niemand den Median, indem er die Daten sortiert und dann nach dem Mittelwert sucht. Im wirklichen Leben verwenden wir einen Computer, um diese Arbeit für uns zu erledigen, und jamovi hat uns einen Medianwert von 30,50 für die Variable afl.margins ausgegeben (siehe Abb. 7).

Mittelwert oder Median? Was ist der Unterschied?

Zu wissen, wie man Mittelwerte und Mediane berechnet, ist nur ein Teil des Ganzen. Man muss auch verstehen, was die einzelnen Werte über die Daten aussagen und was das für die Verwendung der einzelnen Werte bedeutet. Dies wird in Abb. 8 veranschaulicht. Der Mittelwert ist so etwas wie der „Schwerpunkt“ des Datensatzes, während der Median den „Mittelwert“ der Daten darstellt. Welche Methode Sie verwenden sollten, hängt ein wenig davon ab, welche Art von Daten Sie haben und was Sie erreichen wollen. Als grober Anhaltspunkt:

  • Wenn Ihre Daten nominal-skaliert nominal sind, sollten Sie wahrscheinlich weder den Mittelwert noch den Median verwenden. Sowohl der Mittelwert als auch der Median beruhen auf der Vorstellung, dass die den Werten zugewiesenen Zahlen sinnvoll sind. Wenn das Nummerierungsschema willkürlich ist, ist es wahrscheinlich am besten, stattdessen den Modalwert zu verwenden.

  • Wenn es sich bei Ihren Daten um eine Ordinalskala handelt, sollten Sie eher den Median als den Mittelwert verwenden. Der Median nutzt nur die Ordnungsinformationen in Ihren Daten (d. h., welche Zahlen größer sind), ist aber nicht von den genauen Zahlen abhängig. Genau das ist der Fall, wenn es sich bei Ihren Daten um eine Ordinalskala ordinal handelt. Der Mittelwert hingegen verwendet die genauen numerischen Werte, die den Beobachtungen zugeordnet sind, und ist daher für ordinale Daten nicht wirklich geeignet.

  • Für Intervall- und Verhältnisskala-Daten continuous sind im Allgemeinen beide Varianten akzeptabel. Welche Sie wählen, hängt ein wenig davon ab, was Sie erreichen wollen. Der Mittelwert hat den Vorteil, dass er alle Informationen in den Daten nutzt (was nützlich ist, wenn man nicht viele Daten hat). Er ist jedoch sehr empfindlich gegenüber extremen, abweichenden Werten.

Vergleich von Mittelwert und Median

Abb. 8 Veranschaulichung des Unterschieds zwischen der Interpretation von Mittelwert und Median. Der Mittelwert ist im Grunde der „Schwerpunkt“ des Datensatzes. Wenn man sich das Histogramm der Daten als ein festes Objekt vorstellt, dann ist der Punkt, auf dem man es ausbalancieren könnte (wie auf einer Wippe), der Mittelwert. Im Gegensatz dazu ist der Median die mittlere Beobachtung, wobei die eine Hälfte der Beobachtungen kleiner und die andre Hälfte der Beobachtungen größer ist.

Lassen Sie uns den letzten Teil ein wenig erweitern. Eine Folge ist, dass es systematische Unterschiede zwischen dem Mittelwert und dem Median gibt, wenn das Histogramm asymmetrisch (schief; siehe Schiefe und Kurtosis) ist. Dies wird in Abb. 8 dargestellt. Beachten Sie, dass der Median (rechte Seite) näher am „Körper“ des Histogramms liegt, während der Mittelwert (linke Seite) zum „Schwanz“ hingezogen wird (wo sich die Extremwerte befinden). Ein konkretes Beispiel: Nehmen wir an, Bob (Einkommen 50.000 $), Kate (Einkommen 60.000 $) und Jane (Einkommen 65.000 $) sitzen an einem Tisch. Das Durchschnittseinkommen am Tisch beträgt 58.333 $ und das Medianeinkommen 60.000 $. Dann setzt sich Bill zu ihnen (Einkommen $100.000.000). Das Durchschnittseinkommen ist nun auf 25.043.750$ gestiegen, aber der Medianwert liegt nur bei 62.500 $. Wenn Sie sich für das Gesamteinkommen am Tisch interessieren, mag der Mittelwert die richtige Antwort sein. Wenn Sie sich jedoch dafür interessieren, was als typisches Einkommen in der Tabelle gilt, wäre der Median hier die bessere Wahl.

Ein Beispiel aus dem wirklichen Leben

Um ein Gefühl dafür zu bekommen, warum man auf die Unterschiede zwischen Mittelwert und Median achten muss, können wir ein Beispiel aus dem wirklichen Leben betrachten. Da ich dazu neige, mich über die mangelnden wissenschaftlichen und statistischen Kenntnisse von Journalisten lustig zu machen, sollte ich das Lob gebührend erwähnen. Dies wird in einem ausgezeichneten Artikel beschrieben Housing bubble debate boils over:

Der Vorstand der Commonwealth-Bank ist in den letzten Wochen mit einer Präsentation um die Welt gereist, die zeigt, dass die australischen Hauspreise und die wichtigsten Preis-Einkommens-Verhältnisse im Vergleich zu ähnlichen Ländern günstig sind. „Die Erschwinglichkeit von Wohnraum hat sich in den letzten fünf bis sechs Jahren eigentlich seitwärts entwickelt“, sagte Craig James, der Chefökonom der Handelsabteilung der Bank, CommSec.

Dies ist wahrscheinlich ziemlich überraschend für jeden, der eine Hypothek hat oder aufnehmen möchte, Miete zahlt oder nicht völlig ahnungslos darüber ist, was sich in den letzten Jahren auf dem australischen Immobilienmarkt abgespielt hat. Zurück zum Artikel:

Die CBA hat mit Diagrammen, Zahlen und internationalen Vergleichen den Kampf gegen die angeblichen Untergangspropheten des Wohnungsmarktes aufgenommen. In ihrer Präsentation weist die Bank Argumente zurück, wonach australischer Wohnraum im Vergleich zu den Einkommen relativ teuer sei. Das australische Verhältnis von Hauspreisen zu Haushaltseinkommen von 5,6 in den Großstädten und 4,3 im ganzen Land sei mit dem vieler anderer Industrienationen vergleichbar. In San Francisco und New York liegt das Verhältnis bei 7, in Auckland bei 6,7 und in Vancouver bei 9,3.

Eine weitere hervorragende Nachricht! Allerdings wird in dem Artikel auch darauf hingewiesen, dass:

Viele Analysten sind der Meinung, dass dies die Bank dazu verleitet hat, irreführende Zahlen und Vergleiche zu verwenden. Wenn Sie auf Seite vier der CBA-Präsentation die Quellenangaben am unteren Rand der Grafik und der Tabelle lesen, werden Sie feststellen, dass es eine zusätzliche Quelle für den internationalen Vergleich gibt - Demographia. Hätte die Commonwealth-Bank jedoch auch Demographias Analyse des australischen Verhältnisses zwischen Hauspreisen und Einkommen verwendet, wäre sie zu einem Wert gekommen, der näher bei 9 liegt als bei 5,6 oder 4,3.

Das ist eine erstaunliche Diskrepanz. Eine Gruppe von Leuten sagt 9, eine andere sagt 4-5. Sollen wir die Differenz einfach aufteilen und sagen, die Wahrheit liegt irgendwo dazwischen? Auf keinen Fall! In dieser Situation gibt es eine richtige und eine falsche Antwort. Demographia hat Recht, und die Commonwealth-Bank hat Unrecht. Wie in dem Artikel dargelegt wird:

Ein offensichtliches Problem mit den Zahlen der Commonwealth-Bank zum Verhältnis von Inlandspreisen zu Einkommen ist, dass sie die Durchschnittseinkommen mit den Median-Hauspreisen vergleichen (im Gegensatz zu den Zahlen von Demographia, welche die Median-Einkommen mit den Median-Preisen vergleichen). Der Median ist der Mittelwert, der die Höhen und Tiefen ausblendet, und das bedeutet, dass der Durchschnitt im Allgemeinen höher ist, wenn es um Einkommen und Vermögenspreise geht, weil er die Einkommen der reichsten Australier einschließt. Anders ausgedrückt: Die Zahlen der Commonwealth-Bank berücksichtigen auf der Einkommensseite das millionenschwere Gehalt von Ralph Norris, nicht aber sein (zweifellos) sehr teures Haus bei den Immobilienpreisen, so dass das Verhältnis zwischen Hauspreis und Einkommen für Australier mit mittlerem Einkommen zu niedrig angesetzt ist.

Ich hätte es selbst nicht besser ausdrücken können. Die Art und Weise, in der Demographia das Verhältnis berechnet hat, ist richtig. Die Art und Weise, wie die Bank es gemacht hat, ist falsch. Warum eine quantitativ äußerst versierte Organisation wie eine Großbank einen so elementaren Fehler macht… Ich kann es nicht mit Sicherheit sagen, da ich keinen besonderen Einblick in ihre Denkweise habe. Aber der Artikel selbst erwähnt zufällig die folgenden Fakten, die relevant sein können oder auch nicht:

Als Australiens größter Kreditgeber für Wohnimmobilien hat die Commonwealth-Bank eines der größten Eigeninteressen an steigenden Immobilienpreisen. Sie besitzt einen großen Teil des australischen Wohnungsbestands als Sicherheit für ihre Wohnungsbaudarlehen und auch für viele kleine Unternehmenskredite.

Meine Güte.

Modalwert

Der Modalwert einer Stichprobe ist sehr einfach. Er ist der Wert, der am häufigsten vorkommt. Wir können den Modalwert anhand einer anderen AFL-Variable veranschaulichen: Wer hat an den meisten Endspielen teilgenommen? Öffnen Sie den Datensatz aflsmall_finalists und werfen Sie einen Blick auf die Variable afl.finalists, siehe Abb. 9. Diese Variable enthält die Namen aller 400 Mannschaften, die an allen 200 Endspielen im Zeitraum 1987 bis 2010 teilgenommen haben.

Variablen in |aflsmall_finalists|

Abb. 9 jamovi-Screenshot mit den im Datensatz aflsmall_finalists gespeicherten Variablen

Häufigkeitstabelle für die ``afl.margins``-Variable in |aflsmall_finalists|

Abb. 10 jamovi-Screenshot mit der Häufigkeitstabelle für die Variable afl.finalists im Datensatz aflsmall_finalists

Was wir tun könnten, ist, alle 400 Einträge durchzulesen und zu zählen, wie oft jeder Teamname in unserer Liste der Finalisten auftaucht, und so eine Häufigkeitstabelle zu erstellen. Das wäre jedoch stumpfsinnig und langweilig: genau die Art von Aufgabe, für die sich Computer hervorragend eignen. Verwenden wir also jamovi, um dies für uns zu tun. Unter ExplorationDescriptives klicken Sie auf die Checkbox Frequency tables und Sie sollten etwas wie Abb. 10 erhalten.

Nachdem wir unsere Häufigkeitstabelle haben, können wir sie betrachten und sehen, dass Geelong in den 24 Jahren, für welche wir Daten haben, an mehr Endspielen teilgenommen hat als jedes andere Team. Der Modalwert der afl.finalists Daten ist also „Geelong“. Wir sehen, dass Geelong (39 Endspiele) im Zeitraum von 1987 bis 2010 an mehr Endspielen teilgenommen hat als jedes andere Team. Es ist auch erwähnenswert, dass in der Descriptives Tabelle keine Ergebnisse für Mittelwert, Median, Minimum oder Maximum berechnet werden. Das liegt daran, dass die Variable afl.finalists eine nominale Textvariable ist und es daher keinen Sinn macht, diese Werte zu berechnen.

Ein letzter Punkt zum Modalwert. Während der Modalwert am häufigsten bei nominalen Daten berechnet wird, weil Mittelwerte und Mediane für diese Art von Variablen nutzlos sind, gibt es einige Situationen, in denen Sie den Modalwert einer ordinalen, Intervall- oder Verhältnisskala-Variablen wissen wollen. Kehren wir zum Beispiel zu unserer Variable afl.margins zurück. Bei dieser Variablen handelt es sich eindeutig um eine Verhältnisskala (wenn Ihnen das nicht klar ist, hilft es vielleicht, den Abschnitt Skalenniveaus noch einmal zu lesen), und daher ist in den meisten Situationen der Mittelwert oder der Median das gewünschte Maß für die zentrale Tendenz. Aber stellen Sie sich folgendes Szenario vor: Ein Freund von Ihnen bietet eine Wette an und wählt zufällig ein Fußballspiel aus. Ohne zu wissen, wer spielt, müssen Sie die genaue Gewinnspanne erraten. Wenn Sie richtig raten, gewinnen Sie 50 €. Wenn nicht, verlieren Sie 1 €. Es gibt keine Trostpreise für eine „fast“ richtige Antwort. Sie müssen genau die richtige Spanne erraten. Bei dieser Wette sind der Mittelwert und der Median völlig nutzlos für Sie. Es ist der Modalwert, auf den Sie setzen sollten. Um den Modalwert für die Variable afl.margins in jamovi zu berechnen, gehen Sie zurück zu diesem Datensatz und auf dem Bildschirm ExplorationDescriptives sehen Sie, dass Sie den Abschnitt mit der Bezeichnung Statistics erweitern können. Klicken Sie auf die Checkbox Mode und Sie sehen den Modalwert in der Tabelle Descriptives, wie in Abb. 11. Die Daten für 2010 legen also nahe, dass Sie auf eine Marge von 3 Punkten setzen sollten.

Modalwert der ``afl.margins``-Variable in |aflsmall_finalists|

Abb. 11 jamovi-Screenshot mit dem Modalwert für die Variable afl.margins