Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Histogramme

Beginnen wir mit dem Histogramm. Histogramme sind eine der einfachsten und nützlichsten Methoden zur Visualisierung von Daten. Sie sind am sinnvollsten, wenn Sie eine Variable mit Intervall- oder Verhältnisskala haben (z.B. die Variable afl.margins aus dem Datensatz aflsmall_finalists, den wir in Deskriptive Statistik verwendet haben) und Sie einen Gesamteindruck der Variable erhalten möchten. Die meisten von Ihnen wissen wahrscheinlich, wie Histogramme funktionieren, da sie so häufig verwendet werden, aber der Vollständigkeit halber werde ich sie beschreiben. Sie müssen lediglich die möglichen Werte in Abschnitte (bins) aufteilen und dann die Anzahl der Beobachtungen zählen, die in jedes bin fallen. Diese Anzahl wird als Häufigkeit oder Dichte des Bereichs bezeichnet und als vertikaler Balken angezeigt. Die Variable afl.margins enthält 33 Spiele, in denen der Gewinnvorsprung weniger als 10 Punkte betrug, und diese Tatsache wird durch die Höhe des ganz linken Balkens dargestellt, den wir zuvor in Deskriptive Statistik und Abb. 20 gezeigt haben. Für diese früheren Diagramme haben wir ein fortgeschrittenes Plot-Paket in R verwendet, das im Moment die Möglichkeiten von jamovi übersteigt. Aber mit jamovi kommen wir dem nahe, und das Zeichnen dieses Histogramms in jamovi ist ziemlich einfach. Öffnen Sie die Optionen Plots unter ExplorationDescriptives und setzen Sie die Checkbox Histogram, wie in Abb. 21 gezeigt. jamovi beschriftet die y-Achse standardmäßig mit desnity und die x-Achse mit dem Namen der Variablen. Die bins werden automatisch ausgewählt, und die y-Achse enthält im Gegensatz zu Abb. 20 keine Skalen- oder Zählinformationen. Aber das ist nicht so wichtig, denn was uns wirklich interessiert, ist unser Eindruck von der Form der Verteilung: Ist sie normalverteilt oder gibt es eine Schiefe oder Kurtosis? Unsere ersten Eindrücke von diesen Merkmalen erhalten wir, wenn wir ein Histogramm zeichnen.

Die Histogramm-Checkbox in jamovi

Abb. 21 jamovi-Benutzeroberfläche mit der Checkbox für das Histogramm

Eine weitere Funktion, die jamovi bietet, ist die Möglichkeit, ein Dichte-Diagramm zu zeichnen. Sie können dies tun, indem Sie die Checkbox Density unter den Optionen Plots setzen (und Histogram deaktivieren). Das Ergebnis ist das Diagramm in Abb. 22. Ein Dichte-Diagramm stellt die Verteilung von Daten über ein kontinuierliches Intervall oder einen Zeitraum dar. Bei diesem Diagramm handelt es sich um eine Variante des Histogramms, bei der eine Kernelglättung für die Darstellung der Werte verwendet wird. Das ergibt eine glattere Verteilung durch eine Glättung des Rauschens. Die Spitzen in einem Dichte-Diagramm zeigen an, wo sich die Werte innerhalb des Wertebereichs der Variablen konzentrieren. Ein Vorteil von Dichte-Diagrammen gegenüber Histogrammen ist, dass sie die Form der Verteilung besser wiedergeben, da sie nicht von der Anzahl der verwendeten Bins (der Balken in einem typischen Histogramm) beeinflusst werden. Ein Histogramm, das nur aus 4 Bins besteht, würde keine ausreichend unterscheidbare Verteilungsform ergeben, wie es ein Histogramm mit 20 Bins tun würde. Bei Dichte-Diagrammen ist dies jedoch kein Problem.

Dichtediagramm für die Variable ``afl.margins``

Abb. 22 Dichtediagramm für die Variable afl.margins, erstellt in jamovi

Auch wenn dieses Bild überarbeitet werden müsste, um eine gute Präsentationsgrafik zu sein (d. h. eine Grafik für eine Publikation), eignet es sich doch recht gut zur Beschreibung der Daten. Die große Stärke eines Histogramms oder eines Dichte-Diagramms besteht darin, dass es (bei richtiger Anwendung) die gesamte Streuung der Daten zeigt, sodass man sich ein recht gutes Bild davon machen kann, wie die Daten aussehen. Der Nachteil von Histogrammen ist, dass sie nicht sehr kompakt sind. Im Gegensatz zu einigen der anderen Diagramme, über die ich später sprechen werde, ist es schwierig, 20 bis 30 Histogramme in ein einziges Bild zu packen, ohne den Betrachter zu überfordern. Und natürlich sind Histogramme nutzlos, wenn Ihre Daten nominal skaliert sind.