Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Multiple lineare Regression

Das einfache lineare Regressionsmodell, das wir bisher besprochen haben, geht davon aus, dass es eine einzige Prädiktorvariable gibt, an der Sie interessiert sind, in diesem Fall dani.sleep. Tatsächlich ist bis zu diesem Punkt jedes statistische Werkzeug, über das wir gesprochen haben, davon ausgegangen, dass Ihre Analyse eine Prädiktorvariable und eine Ergebnisvariable verwendet. In vielen (vielleicht den meisten) Forschungsprojekten haben Sie jedoch mehrere Prädiktoren, die Sie untersuchen möchten. In diesem Fall wäre es schön, wenn man den Rahmen der linearen Regression erweitern könnte, um mehrere Prädiktoren einbeziehen zu können. Vielleicht wäre eine Art multiple Regression angebracht?

Die multiple Regression ist konzeptionell sehr einfach. Wir fügen lediglich weitere Terme zu unserer Regressionsgleichung hinzu. Nehmen wir an, wir haben zwei Variablen, an denen wir interessiert sind; vielleicht wollen wir sowohl dani.sleep als auch baby.sleep verwenden, um die Variable dani.grump vorherzusagen. Wie zuvor lassen wir Y_i sich auf meine schlechte Laune am i-ten Tag beziehen. Aber jetzt haben wir zwei X Variablen: die erste entspricht der Menge an Schlaf, die ich bekommen habe, und die zweite entspricht der Menge an Schlaf, die mein Sohn bekommen hat. Wir lassen also X_i1 sich auf die Stunden beziehen, die ich am i-ten Tag geschlafen habe, und X_i2 bezieht sich auf die Stunden, die das Baby an diesem Tag geschlafen hat. Wenn dies der Fall ist, können wir unser Regressionsmodell wie folgt schreiben:

Y_i = b₀ + b₁ X_i1 + b₂ X_i2 + ε_i

Wie zuvor ist ε_i das mit der i-ten Beobachtung verbundene Residuum, \({\epsilon}_i = {Y}_i - \hat{Y}_i\). In diesem Modell haben wir nun drei Koeffizienten, die geschätzt werden müssen: b₀ ist das Interzept, b₁ ist der Koeffizient, der mit meinem Schlaf verbunden ist, und b₂ ist der Koeffizient, der mit dem Schlaf meines Sohnes verbunden ist. Obwohl sich die Anzahl der zu schätzenden Koeffizienten geändert hat, bleibt die Grundidee der Schätzung unverändert: Unsere geschätzten Koeffizienten \(\hat{b}_0\), \(\hat{b}_1\) und \(\hat{b}_2\) sind diejenigen, welche die Summe der quadrierten Residuen minimieren.

Durchführung in jamovi

Die multiple Regression in jamovi unterscheidet sich kaum von der einfachen Regression. Alles, was wir tun müssen, ist, die zusätzliche Variablen in das Feld Covariates in jamovi einzufügen. Wenn wir zum Beispiel sowohl dani.sleep als auch baby.sleep als Prädiktoren verwenden wollen, um zu erklären, warum ich so schlechte Laune habe, dann verschieben Sie baby.sleep in das Feld Covariates zusätzlich zur schon enthaltenen Variable dani.sleep. jamovi nimmt standardmäßig an, dass jedes Modell einen Interzept enthalten sollte. Die Koeffizienten, die wir dieses Mal erhalten, sind:

Tab. 15 Modellkoeffizienten für das lineare Modell zur Vorhersage von `dani.grump` unter Verwendung von `baby.sleep` und `dani.sleep` (aus dem `parenthood` Datensatz).
Prädiktor	Schätzung
Interzept	125.966
`dani.sleep`	-8.950
`baby.sleep`	0.011

Der Koeffizient für dani.sleep ist recht groß, was darauf hindeutet, dass jede Stunde Schlaf, die ich verliere, mich schlechter gelaunt macht. Der Koeffizient für baby.sleep ist jedoch sehr klein, was darauf hindeutet, dass es nicht wirklich wichtig ist, wie viel Schlaf mein Sohn bekommt. Entscheidend für meine schelchte Laune ist, wie viel Schlaf ich bekomme. Um ein Gefühl dafür zu bekommen, wie dieses multiple Regressionsmodell aussieht, zeigt Abb. 119 ein 3D-Diagramm, in dem alle drei Variablen sowie das Regressionsmodell selbst dargestellt sind.

Abb. 119 3D-Visualisierung eines multiplen Regressionsmodells: Es gibt zwei Prädiktoren in dem Modell, `dani.sleep` und `baby.sleep` und die Ergebnisvariable ist `dani.grump`. Zusammen bilden diese drei Variablen einen 3D-Raum. Jede Beobachtung (Punkt) ist ein Punkt in diesem Raum. Genauso wie ein einfaches lineares Regressionsmodell eine Linie im 2D-Raum bildet, bildet dieses multiple Regressionsmodell eine Ebene im 3D-Raum. Bei der Schätzung der Regressionskoeffizienten geht es darum, eine Ebene zu finden, die möglichst nahe an allen blauen Punkten liegt.

Die Formel für den allgemeinen Fall

Die oben dargestellte Gleichung zeigt Ihnen, wie ein multiples Regressionsmodell aussieht, wenn Sie zwei Prädiktoren einbeziehen. Wenn Sie also mehr als zwei Prädiktoren benötigen, müssen Sie lediglich weitere X Terme und weitere b Koeffizienten hinzufügen. Mit anderen Worten: Wenn Sie K Prädiktorvariablen im Modell haben, sieht die Regressionsgleichung wie folgt aus

\[Y_i = b_0 + \left( \sum_{k=1}^K b_{k} X_{ik} \right) + \epsilon_i\]