Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Was ist ein lineares Regressionsmodell?

Auf das Wesentliche reduziert, sind lineare Regressionsmodelle im Grunde eine etwas ausgefeiltere Version der Pearson-Korrelation (Abschnitt Korrelationen), obwohl Regressionsmodelle, wie wir sehen werden, viel leistungsfähigere Werkzeuge sind.

Da die grundlegenden Ideen der Regression eng mit der Korrelation verknüpft sind, kehren wir zum Datensatz parenthood zurück, den wir zur Veranschaulichung der Funktionsweise von Korrelationen verwendet haben. Erinnern Sie sich daran, dass wir mit diesem Datensatz versucht haben, herauszufinden, warum Dani ständig so schlecht gelaunt ist. Unsere Arbeitshypothese war, dass ich nicht genug Schlaf bekommen hat. Wir haben einige Streudiagramme gezeichnet, um die Beziehung zwischen der Menge an Schlaf, die ich bekommen habe, und meiner schlechten Laune am nächsten Tag zu untersuchen, wie in Abb. 114. Wie wir zuvor gesehen haben, entspricht dies einer Korrelation von r = -0,90, aber wir stellen uns insgeheim etwas vor, das näher an Abb. 116 (links) liegt. Das heißt, wir ziehen gedanklich eine gerade Linie durch die Mitte der Daten. In der Statistik wird diese Linie, die wir zeichnen, als Regressionsgerade bezeichnet. Da wir keine Idioten sind, geht die Regressionsgerade durch die Mitte der Daten. Wir stellen uns nicht so etwas vor wie das ziemlich alberne Diagramm in Abb. 116 (rechts).
Beste und schlechte Wahl der Regressionsgeraden

Abb. 116 Das linke Feld zeigt das Streudiagramm von dani.sleep und dani.grump aus Abb. 114 inklusive der am besten passenden Regressionsgerade. Es überrascht nicht, dass die Linie durch die Mitte der Daten geht. Im Gegensatz dazu zeigt die rechte Abbildung die gleichen Daten, diesmal aber mit einer sehr schlecht gewählten Regressionsgerade.

Dies ist nicht sehr überraschend. Die Linie, die ich in Abb. 116 (rechts) gezeichnet habe, „passt“ nicht sehr gut zu den Daten, so dass es nicht sehr sinnvoll ist, sie als Mittel zur Zusammenfassung der Daten vorzuschlagen? Dies ist eine sehr einfache Beobachtung, die sich jedoch als sehr aussagekräftig erweist, wenn wir versuchen, sie mit ein wenig Mathematik zu ummanteln. Beginnen wir also mit einer Auffrischung der Schulmathematik. Die Formel für eine gerade Linie wird normalerweise so geschrieben:

y = a + bx

Die beiden Variablen sind x und y, und wir haben zwei Koeffizienten, a und b.[1] Der Koeffizient a stellt den y-Achsenabschnitt (das Interzept) der Geraden dar, und der Koeffizient b stellt die Steigung der Geraden dar. Wenn wir weiter in unseren verblassten Erinnerungen an Mathematik aus unserer Schulzeit kramen, erinnern wir uns, dass der Achsenabschnitt (das Interzept) als „der Wert von y interpretiert wird, den man erhält, wenn x = 0“. In ähnlicher Weise bedeutet eine Steigung von b, dass der y-Wert um b Einheiten ansteigt, wenn man den x-Wert um 1 Einheit erhöht, und eine negative Steigung bedeutet, dass der y-Wert nicht ansteigt, sondern fällt. Da wir uns nun daran erinnert haben, sollte es nicht mehr überraschen, dass wir genau dieselbe Formel für eine Regressionsgerade verwenden können. Wenn Y die Ergebnisvariable (die DV) und X die Prädiktorvariable (die IV) ist, dann lautet die Formel, die unsere Regression beschreibt, wie folgt:

Ŷi = b0 + b1 Xi

Das sieht nach der gleichen Formel aus, aber diese Version enthält ein paar zusätzliche Details. Vergewissern wir uns, dass wir sie verstehen. Zunächst fällt auf, dass ich Xi und Yi geschrieben habe und nicht einfach nur X und Y. Das liegt daran, dass wir uns daran erinnern wollen, dass wir es mit tatsächlichen Daten zu tun haben. In dieser Gleichung ist Xi der Wert der Vorhersagevariable für die i-te Beobachtung (d. h. die Anzahl der Schlafstunden, die ich am Tag i meiner Aufzeichnungen bekommen habe), und Yi ist der entsprechende Wert der Ergebnisvariable (d. h. das Ausmaß meiner schlechten Laune an diesem Tag). Und obwohl ich das in der Gleichung nicht ausdrücklich gesagt habe, gehen wir davon aus, dass diese Formel für alle Beobachtungen im Datensatz gilt (d. h. für alle i). Zweitens: Beachten Sie, dass ich Ŷi geschrieben habe und nicht Yi. Das liegt daran, dass wir zwischen den tatsächlichen Daten Yi und der Schätzung Ŷi (d. h. der Vorhersage, die unsere Regressionsgerade macht) unterscheiden wollen. Drittens habe ich die Buchstaben zur Beschreibung der Koeffizienten von a und b in b0 und b1 geändert. Das ist einfach die Art und Weise, wie Statistiker die Koeffizienten in einem Regressionsmodell bezeichnen. Ich habe keine Ahnung, warum sie b gewählt haben, aber sie haben es so gemacht. Auf jeden Fall bezieht sich b0 immer auf den Interzept-Term und b1 auf die Steigung.

Ausgezeichnet. Als Nächstes kann ich nicht umhin festzustellen, dass die Daten, unabhängig davon, ob es sich um eine gute oder eine schlechte Regressionsgerade handelt, nicht perfekt auf die Linie fallen. Oder anders gesagt, die Daten Yi sind nicht identisch mit den Vorhersagen des Regressionsmodells Ŷi. Da Statistiker es lieben, alles mit Buchstaben, Namen und Zahlen zu versehen, bezeichnen wir die Differenz zwischen der Modellvorhersage und dem tatsächlichen Datenpunkt als Residuum und bezeichnen sie als εi.[2] Mathematisch ausgedrückt sind die Residuen definiert als

εi = Yi - Ŷi

was wiederum bedeutet, dass wir das vollständige lineare Regressionsmodell wie folgt aufschreiben können

Yi = b0 + b1 Xi + εi