Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Quantifizieren der Anpassung des Regressionsmodells

Wir wissen jetzt also, wie man die Koeffizienten eines linearen Regressionsmodells schätzt. Das Problem ist, dass wir noch nicht wissen, ob dieses Regressionsmodell überhaupt etwas taugt. Zum Beispiel behauptet das Modell regression.1, dass jede Stunde Schlaf meine Stimmung um einiges verbessert, aber das könnte auch einfach nur Unsinn sein. Denken Sie daran, dass das Regressionsmodell nur eine Vorhersage Ŷi darüber macht, wie meine Stimmung ist, während Yi meine tatsächliche Stimmung beschreibt. Wenn diese beiden Werte sehr nahe beieinander liegen, dann hat das Regressionsmodell gute Arbeit geleistet. Wenn sie sehr unterschiedlich sind, hat es schlechte Arbeit geleistet.

Der R² (R-Quadrat) Wert

Lassen Sie uns auch hier ein wenig Mathematik anwenden. Erstens haben wir die Summe der quadrierten Residuen

\[\mbox{SS}_{res} = \sum_i (Y_i - \hat{Y}_i)^2\]

von der wir hoffen, dass sie ziemlich klein ist. Konkret wünschen wir uns, dass sie im Vergleich zur Gesamtvariabilität der Ergebnisvariablen sehr klein ist

\[\mbox{SS}_{tot} = \sum_i (Y_i - \bar{Y})^2\]

Wenn wir schon dabei sind, sollten wir diese Werte selbst berechnen, allerdings nicht von Hand. Verwenden wir stattdessen jamovi. Öffnen Sie den Datensatz parenthood, damit wir darin arbeiten können. Als Erstes müssen wir die Ŷ Werte berechnen, und für das einfache Modell, das nur einen einzigen Prädiktor verwendet, würden wir folgendes tun:

  1. Gehen Sie zu einer leeren Spalte (am Ende des Datensatzes) und doppelklicken Sie auf die Spaltenüberschrift, wählen Sie New computed variable und geben Sie Y_pred in die erste Zeile und die Formel 125.97 + (-8.94 * dani.sleep) in die Zeile beginnend mit = (neben fx) ein.

Damit haben wir nun eine Variable, welche die Vorhersagen des Regressionsmodells dafür, wie mürrisch ich an einem bestimmten Tag sein werde, enthält. Lassen Sie uns jetzt die Summe der quadrierten Residuen berechnen. Dazu verwenden wir die folgende Formel:

  1. Zum Berechnen der quadrierten Residuen in jamovi, fügen Sie eine neue Spalte mit der Bezeichnung sq_resid hinzu und verwenden Sie die Formel (dani.grump - Y_pred) ^ 2 für diese Variable. Die Werte in dieser Spalte werden später aufsummiert, um SSres zu erhalten.

  2. Berechnen Sie die quadratische Abweichung vom Mittelwert, indem Sie eine weitere Spalte mit der Bezeichnung sq_total unter Verwendung der Formel (dani.grump - VMEAN(dani.grump)) ^ 2 erstellen. Die Werte in dieser Spalte werden später aufsummiert, um SStot zu erhalten.

Um die Summe dieser Werte zu berechnen, klicken Sie auf DescriptivesDescriptive Statistics und verschieben Sie sq_resid und sq_total in das Feld Variables. Anschließend müssen Sie Sum aus dem Dropdown-Menü Statistics auswählen. Die Summe von sq_resid hat einen Wert von 1838.722. Dies ist eine große Zahl, die jedoch nicht viel aussagt. Die Summe von sq_total hat einen Wert von 9998.590. Das ist eine viel (etwa fünfmal) größere Zahl als die letzte, was darauf hindeutet, dass unser Regressionsmodell gute Vorhersagen macht (d. h. es hat den Restfehler im Vergleich zu dem Modell, das den Mittelwert als einzigen Prädiktor verwendet, stark reduziert). Aber diese Zahlen sind nicht so einfach interpretierbar.

Um dies zu beheben, möchten wir diese beiden ziemlich bedeutungslosen Zahlen in eine einzige Zahl umwandeln. Eine schöne, interpretierbare Zahl, die wir aus keinem besonderen Grund R² nennen. Wir möchten, dass der Wert von R² gleich 1 ist, wenn das Regressionsmodell bei der Vorhersage der Daten keine Fehler macht. Mit anderen Worten, wenn sich herausstellt, dass die Restfehler gleich Null sind. Das heißt, wenn SSres = 0 ist, dann erwarten wir R² = 1. Ähnlich verhält es sich, wenn das Modell völlig nutzlos ist: dann sollte R² gleich 0 sein. Was meine ich mit „nutzlos“? Hierfür muss ich wahrscheinlich eine praktischere Definition wählen. In diesem Fall meine ich nur, dass die Quadratsumme der Residuen nicht kleiner ist als die Gesamtquadratsumme, SSres = SStot. Die Formel, die uns unseren R² Wert liefert, ist daher ziemlich einfach aufzuschreiben und ebenso einfach von Hand zu berechnen:[1]

R² = 1 - (SSres / SStot)
R² = 1 - (1838.722 / 9998.590)
R² = 1 - 0.184

Dies ergibt einen Wert für R² von 0,816. Der R²-Wert, der manchmal auch als Bestimmtheitsmaß[2] bezeichnet wird, hat eine einfache Interpretation: Er ist der Anteil der Varianz in der Ergebnisvariablen, der durch einen Prädiktor erklärt werden kann. In diesem Fall bedeutet die Tatsache, dass wir R² = 0,816 erhalten haben, dass der Prädiktor (dani.sleep) 81,6 % der Varianz des Ergebnisses (dani.grump) erklärt.[3]

Natürlich müssen Sie all diese Berechnungen nicht selbst durchführen, wenn Sie den R² Wert für Ihr Regressionsmodell erhalten möchten. Wie wir später in Durchführen von Hypothesentests für Regressionsmodelle sehen werden, müssen Sie dies lediglich als Option in jamovi angeben. Aber lassen wir das für den Moment beiseite. Es gibt eine weitere Eigenschaft von R², auf die ich hinweisen möchte.

Die Beziehung zwischen Regression und Korrelation

An dieser Stelle können wir noch einmal auf meine frühere Behauptung zurückkommen, dass die Regression in dieser sehr einfachen Form, die ich bisher besprochen habe, im Grunde dasselbe ist wie eine Korrelation. Zuvor haben wir das Symbol r verwendet, um eine Pearson-Korrelation zu bezeichnen. Könnte es eine Beziehung zwischen dem Wert des Korrelationskoeffizienten r und dem Wert R² bei der linearen Regression geben? Natürlich: Die quadrierte Korrelation R² ist identisch mit dem Wert R² für eine lineare Regression mit nur einem einzigen Prädiktor. Mit anderen Worten: Das Berechnen einer Pearson-Korrelation ist mehr oder weniger gleichbedeutend mit dem Berechnen eines linearen Regressionsmodells mit nur einer Prädiktorvariable.

Der adjustierte R² (R-Quadrat) Wert

Bevor wir fortfahren, möchte ich noch auf eine letzte Sache hinweisen. Es ist durchaus üblich, ein weiteres Maß für die Modellgüte anzugeben, das als „adjustiertes R²“ bekannt ist. Der Grund für die Berechnung des adjustierten R²-Wertes ist die Beobachtung, dass das Hinzufügen weiterer Prädiktoren zum Modell immer dazu führt, dass der R² Wert steigt (oder zumindest nicht sinkt).

Der adjustierte R²-Wert führt zu einer geringfügigen Änderung der Berechnung. Für ein Regressionsmodell mit K Prädiktoren, das an einen Datensatz mit N Beobachtungen angepasst wird, ist das adjustierte R²:

\[\mbox{adj. } R^2 = 1 - \left(\frac{\mbox{SS}_{res}}{\mbox{SS}_{tot}} \times \frac{N - 1}{N - K - 1} \right)\]

Diese Anpassung ist ein Versuch, die Freiheitsgrade zu berücksichtigen. Der große Vorteil des adjustierten R²-Wertes besteht darin, dass der adjustierte R²-Wert nur dann ansteigt, wenn die neuen Variablen die Leistung des Modells stärker verbessern, als man zufällig erwarten würde, wenn man dem Modell weitere Prädiktoren hinzufügt. Der große Nachteil ist, dass der adjustierte R² Wert nicht mehr auf die elegante Art und Weise interpretiert werden kann, wie das für R² der Fall ist. R² lässt sich einfach als der Anteil der Varianz in der Ergebnisvariablen interpretieren, der durch das Regressionsmodell erklärt wird. Meines Wissens gibt es keine gleichwertige Interpretation für das adjustierte R².

Eine offensichtliche Frage ist, ob Sie R² oder das adjustierte R² angeben sollten. Dies ist wahrscheinlich eine Frage der persönlichen Vorliebe. Wenn Sie mehr Wert auf die Interpretierbarkeit legen, dann ist R² besser. Wenn Sie mehr Wert auf die Korrektur von Verzerrungen legen, dann ist das adjustierte R² wahrscheinlich besser. Ich persönlich bevorzuge R². Meines Erachtens ist es wichtiger, dass Sie Ihr Maß für die Modellgüte interpretieren können. Außerdem werden wir in Abschnitt Durchführen von Hypothesentests für Regressionsmodelle sehen, dass sich mit Hypothesentests überprüfen lässt, ob das Hinzufügen eines Prädiktors zu einem besseren Modell führt, oder ob sich die Verbesserung von R², die Sie durch das Hinzufügen erhalten, ausschließlich auf zufällige Variation zurückzuführen lässt.