Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Box-Plots

Eine weitere Alternative zu Histogrammen ist ein Box-Plot, manchmal auch als „Box and Whiskers“-Diagramm bezeichnet. Wie Histogramme eignen sie sich am besten für Daten auf Intervall- oder Verhältnisskalenniveau. Die Idee eines Box-Plots ist es, eine einfache visuelle Darstellung des Medians, des Interquartilsbereichs und des Wertebereichs der Daten zu liefern. Und weil sie dies auf recht kompakte Weise tun, sind Box-Plots zu einer sehr beliebten statistischen Grafik geworden. Sie helfen insbesondere in der explorativen Phase der Datenanalyse, die Daten besser zu verstehen. Schauen wir uns an, wie sie funktionieren, indem wir wieder die Variable afl.margins aus dem Datensatz aflsmall_margins als Beispiel verwenden.

Boxplot für die Variable ``afl.margins``

Abb. 23 Boxplot für die Variable afl.margins aus dem Datensatz aflsmall_margins, erstellt in jamovi

Der einfachste Weg zu beschreiben, wie ein Boxplot aussieht, ist, einen zu zeichnen. Setzen Sie die Checkbox Box plot und Sie erhalten das Diagramm, das unten rechts in Abb. 23 gezeigt wird. jamovi hat das einfachste Boxplot gezeichnet, das möglich ist. Wenn Sie dieses Diagramm betrachten, sollten Sie es folgendermaßen interpretieren: Die dicke Linie in der Mitte der Box ist der Median; die Box selbst umfasst den Bereich vom 25. Perzentil bis zum 75. Perzentil; und die „Whiskers“ reichen bis zum extremsten Datenpunkt, der eine bestimmte Grenze nicht überschreitet. Standardmäßig ist dieser Wert das 1,5-fache des Interquartilsabstand (IQR), berechnet als 25. Perzentil - (1,5 * IQR) für die untere Grenze und 75. Perzentil + (1,5 * IQR) für die obere Grenze. Jede Beobachtung, deren Wert außerhalb dieses Bereichs liegt, wird als Kreis oder Punkt dargestellt, anstatt von den Whiskern abgedeckt zu werden, und wird gemeinhin als Ausreißer bezeichnet. Für die Variable afl.margins gibt es zwei Beobachtungen, die außerhalb dieses Bereichs liegen, und diese Beobachtungen werden als Punkte dargestellt (die obere Grenze liegt bei 107, und wenn man sich die Datenspalte in der Kalkulationstabelle ansieht, gibt es zwei Beobachtungen mit höheren Werten als diesem, 108 und 116, also sind dies die Punkte).

Violin-Plots

Eine Variante des traditionellen Box-Plots ist der Violin-Plot. Violinplots ähneln Box-Plots, mit dem Unterschied, dass sie auch die Dichteverteilung der Daten zeigen. Typischerweise enthalten Violin-Plots eine Markierung für den Median der Daten und eine Box, die den Interquartilsbereich anzeigt, wie in gewöhnlichen Box-Plots. In jamovi können Sie diese Art von Funktionalität erreichen, indem Sie die beiden Checkboxen Violin und Box plot gleichzeitig aktivieren (siehe Abb. 24). Hier ist zusätzlich die Checkbox Data aktiviert, um die tatsächlichen Datenpunkte in der Grafik anzuzeigen. Dadurch wird das Diagramm dadurch allerdings leicht unübersichtlich. Klarheit bedeutet Einfachheit, daher ist es in der Praxis vielleicht besser, nur ein einfache Box-Plots zu verwenden.

Violinplot für die Variable ``afl.margins``

Abb. 24 Violin-Plot für die Variable afl.margins aus der Datei aflsmall_margins, erstellt in jamovi (gleichzeitig wird ein Box-Plot und Datenpunkte angezeigt)

Das Zeichnen mehrerer Boxplots

Ein letzter Punkt: Was ist, wenn Sie mehrere Boxplots auf einmal zeichnen möchten? Nehmen wir zum Beispiel an, ich möchte separate Box-Plots, welche die AFL-Gewinnspannen nicht nur für 2010, sondern für jedes weitere Jahr zwischen 1987 und 2010 zeigen. Dazu müssen wir zunächst die Daten finden. Diese sind in dem Datensatz aflmarginbyyear gespeichert. Laden wir ihn also in jamovi und sehen wir uns an, was er enthält. Sie werden sehen, dass es ein ziemlich großer Datensatz ist. Er enthält 4296 Spiele und die Variablen, an denen wir interessiert sind. Wir möchten, dass jamovi Box-Plots für die margin-Variable zeichnet, aber getrennt für jedes Jahr (year). Dazu wird die Variable year in das Feld Split by verschoben, wie in Abb. 25 gezeigt.

``Split by``-Eingabefeld

Abb. 25 jamovi-Benutzeroberfläche mit dem Split by-Eingabefeld

Das Ergebnis ist in Abb. 26 dargestellt. Diese Version des Boxplots, aufgeteilt nach Jahren, zeigt, warum es manchmal sinnvoll ist, Boxplots anstelle von Histogrammen zu verwenden. Es ist möglich, ein gutes Gefühl dafür zu bekommen, wie die Daten von Jahr zu Jahr aussehen, ohne von zu vielen Details überwältigt zu werden. Stellen Sie sich nun vor, was passiert wäre, wenn ich versucht hätte, 24 Histogramme auf diese Abbildung zu packen: Der Betrachter hätte wenige Chancen, etwas Nützliches zu erfahren.

Mehrere Boxplots: ``margin`` geteilt durch ``year`` aus |aflmarginbyyear|

Abb. 26 Mehrere in jamovi erstellte Box-Plots für die Variable margin unterteilt nach year aus der Datendatei aflmarginbyyear

Verwenden von Boxplots zum Identifizieren von Ausreißern

Da der Boxplot automatisch diejenigen Beobachtungen hervorhebt, die außerhalb eines bestimmten Bereichs liegen, und sie mit einem Punkt in jamovi darstellt, werden sie oft als informelle Methode zur Erkennung von Ausreißern verwendet: Beobachtungen, die „verdächtig“ weit vom Rest der Daten entfernt sind. Hier ist ein Beispiel. Angenommen, ich hätte einen Boxplot für die Variable afl.margins gezeichnet und er sähe aus wie Abb. 27.

Boxplot für die Variable ``afl.margins`` mit Ausreißern

Abb. 27 Boxplot für die Variable afl.margins mit zwei sehr verdächtigen Ausreißern

Es ist ziemlich klar, dass bei zwei der Beobachtungen etwas Merkwürdiges geschehen ist. Offenbar gab es zwei Spiele, bei denen der Vorsprung über 300 Punkte betrug! Das hört sich nicht richtig an. Misstrauisch geworden, sollen die Daten etwas genauer betrachtet werden. In jamovi können Sie schnell herausfinden, welche dieser Beobachtungen verdächtig sind, und dann können Sie zu den Rohdaten zurückgehen, um zu sehen, ob es einen Fehler bei der Dateneingabe gab. Dazu können Sie einen Filter einrichten, damit nur die Beobachtungen mit Werten über oder unter einem bestimmten Schwellenwert berücksichtigt werden. In unserem Beispiel liegt der Schwellenwert über 300, sodass wir diesen Filter erstellen werden. Klicken Sie zunächst auf die Schaltfläche Filters (zu finden im Data-Tab am oberen Rand des jamovi-Fensters), und geben Sie dann margin > 300 in das Filterfeld ein, wie in Abb. 28.

jamovi-Filter-Eingabemaske

Abb. 28 Die jamovi-Filter-Eingabemaske

Dieser Filter erzeugt eine neue Spalte in der jamovi-Datentabelle, in die nur die Beobachtungen aufgenommen werden, die den Filter passieren. Eine gute Möglichkeit, schnell zu erkennen, um welche Beobachtungen es sich dabei handelt, besteht darin, jamovi anzuweisen, eine Frequency table (unter ExplorationDescriptives) für die Variable ID zu erzeugen (es muss sich um eine Nominalvariable nominal handeln, da sonst die Häufigkeitstabelle nicht erstellt wird). In Abb. 29 können Sie sehen, dass die ID-Werte für die Beobachtungen, bei denen die Spanne über 300 lag, 14 und 134 sind. Dies sind verdächtige Fälle oder Beobachtungen, bei denen Sie zur ursprünglichen Datenquelle zurückkehren sollten, um herauszufinden, was los ist.

Häufigkeitstabelle für ``ID``

Abb. 29 Häufigkeitstabelle für ID mit den ID-Nummern für die beiden verdächtigen Ausreißer: 14 und 134

In der Regel stellt man fest, dass eine falsche Nummer eingegeben wurde. Obwohl es wie ein dummes Beispiel klingt, kommt so etwas tatsächlich häufig vor. In der realen Welt sind Datensätze oft mit Fehlern behaftet, vor allem, wenn jemand irgendwann etwas manuell in einen Computer eingeben musste. Es gibt sogar einen Namen für diese Phase der Datenanalyse, und in der Praxis kann sie einen großen Teil unserer Zeit in Anspruch nehmen: Datenbereinigung. Dabei geht es um die Suche nach Tippfehlern („Typos“), fehlenden Daten und allen möglichen anderen unangenehmen Fehlern in Rohdaten-Dateien.

Bei weniger extremen Werten, selbst wenn sie in einem Boxplot als Ausreißer gekennzeichnet sind, hängt die Entscheidung, ob Ausreißer in eine Analyse einbezogen oder ausgeschlossen werden sollen, stark davon ab, warum Sie glauben, dass die Daten so aussehen, wie sie es tun, und wofür Sie die Daten verwenden wollen. Sie müssen hier ein gutes Urteilsvermögen beweisen. Wenn Ihnen der Ausreißer legitim erscheint, dann behalten Sie ihn. Auf jeden Fall werde ich im Abschnitt Modellprüfung noch einmal auf das Thema zurückkommen.