Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Eine Anmerkung zu den Regressionskoeffizienten

Wir werden gleich mit den Annahmen fortfahren, die der linearen Regression zugrunde liegen, und was Sie tun können, um zu überprüfen, ob diese erfüllt sind. Zuerst möchte ich aber kurz zwei weitere Themen besprechen, die sich beide auf die Regressionskoeffizienten beziehen. Das Erste, worüber man sprechen muss, ist die Berechnung von Konfidenzintervallen für die Koeffizienten. Danach werde ich die etwas verworrene Frage diskutieren, wie man bestimmt, welcher Prädiktor am wichtigsten ist.

Konfidenzintervalle für die Koeffizienten

Wie jeder Parameter der Grundgesamtheit können die Regressionskoeffizienten b nicht mit absoluter Genauigkeit aus einer Stichprobe von Daten geschätzt werden. Das ist einer der Gründe, warum wir Hypothesentests brauchen. Vor diesem Hintergrund ist es sehr nützlich, Konfidenzintervalle berichten zu können, die unsere Unsicherheit über den wahren Wert von b erfassen. Dies ist besonders nützlich, wenn sich die Forschungsfrage stark auf den Versuch konzentriert, herauszufinden, wie stark die Variable X mit der Variablen Y zusammenhängt, da in diesen Situationen das Interesse hauptsächlich auf dem Regressionsgewicht b liegt.

Erfreulicherweise können Konfidenzintervalle für die Regressionskoeffizienten auf die übliche Weise konstruiert werden.

\[\mbox{CI}(b) = \hat{b} \pm \left( t_{crit} \times SE(\hat{b}) \right)\]

wobei \(SE(\hat{b})\) der Standardfehler des Regressionskoeffizienten ist, und tcrit der entsprechende kritische Wert der entsprechenden t-Verteilung ist. Wenn wir beispielsweise ein 95%-Konfidenzintervall wünschen, dann ist der kritische Wert das 97,5. Quantil einer t -Verteilung mit N - K - 1 Freiheitsgraden. Mit anderen Worten, dies ist im Grunde derselbe Ansatz zur Berechnung von Konfidenzintervallen, den wir bisher verwendet haben.

In jamovi hatten wir bereits 95\% Confidence interval angegeben, wie in Abb. 120 gezeigt, obwohl auch wir leicht einen anderen Wert hätten wählen können, z.B. ein 99\% Confidence interval, wenn wir uns dafür entschieden hätten.

Berechnung standardisierter Regressionskoeffizienten

Eine weitere Sache, die Sie vielleicht tun möchten, ist die Berechnung von „standardisierten“ Regressionskoeffizienten, die oft als β bezeichnet werden. Die Begründung für standardisierte Koeffizienten lautet wie folgt. In vielen Situationen haben Ihre Variablen grundlegend unterschiedliche Skalen. Nehmen wir zum Beispiel an, mein Regressionsmodell zielt darauf ab, die IQ-Werte von Menschen anhand ihres Bildungsgrades (Anzahl der Bildungsjahre) und ihres Einkommens als Prädiktoren vorherzusagen. Offensichtlich sind Bildungsstand und Einkommen nicht auf den gleichen Skalen. Die Anzahl der Schuljahre kann nur um 10 Jahre variieren, während das Einkommen um 10.000 Dollar (oder mehr) variieren kann. Die Maßeinheiten haben einen großen Einfluss auf die Regressionskoeffizienten. Die b-Koeffizienten machen nur Sinn, wenn sie im Lichte der Einheiten interpretiert werden, sowohl der Prädiktorvariablen als auch der Ergebnisvariablen. Dies macht es sehr schwierig, die Koeffizienten verschiedener Prädiktoren miteinander zu vergleichen. Es gibt jedoch oft Situationen, in denen Sie verschiedene Koeffizienten miteinander vergleichen möchten. Insbesondere möchten Sie möglicherweise eine Art Standardmaß dafür haben, welche Prädiktoren die stärkste Beziehung zum Ergebnis haben. Darauf zielen standardisierte Koeffizienten ab.

Die Grundidee ist ganz einfach. Die standardisierten Koeffizienten sind die Koeffizienten, die Sie erhalten hätten, wenn Sie alle Variablen vor dem Ausführen der Regression in z-Werte konvertiert hätten.[1] Die Idee dabei ist, dass alle Prädiktoren durch die Konvertierung in z-Werte auf derselben Skala in die Regression eingehen. Dadurch wird das Problem beseitigt, Variablen auf verschiedenen Skalen zu haben. Unabhängig von den ursprünglichen Variablen bedeutet ein β-Wert von 1, dass eine Erhöhung des Prädiktors um 1 Standardabweichung zu einer entsprechenden Erhöhung der Ergebnisvariablen um 1 Standardabweichung führt. Wenn also Variable A einen größeren absoluten Wert von β als Variable B hat, kann davon ausgegangen werden, dass sie eine stärkere Beziehung zum Ergebnis hat. Es lohnt sich aber, hier etwas vorsichtig zu sein, da alles sehr stark auf der Annahme beruht, dass „eine Änderung der Standardabweichung von 1“ grundsätzlich für alle Variablen gleich ist. Es ist nicht immer klar, ob eine solche Annahme korrekt ist.

Lassen wir die Interpretationsprobleme beiseite, und schauen wir uns die Berechnung an. Was Sie tun könnten, ist, alle Variablen selbst zu standardisieren und dann eine Regression durchzuführen, aber es gibt einen viel einfacheren Weg, dies zu tun. Wie sich herausstellt, hat der β-Koeffizient für einen Prädiktor X und das Ergebnis Y eine sehr einfache Formel, nämlich

βX = bX × (σX / σY)

wobei σX die Standardabweichung des Prädiktors und σ:sub:Y die Standardabweichung der Ergebnisvariablen Y ist. Das macht die Sache viel einfacher.

Um die Dinge noch einfacher zu machen, hat jamovi eine Option, welche die β-Koeffizienten für Sie berechnet. Setzen Sie hierfür die Standardized estimate-Checkbox in den Optionen Model Coefficients, und sie erhalten die Ergebnisausgabe in Abb. 121.

Standardisierte Koeffizienten mit 95\%-Konfidenzintervallen

Abb. 121 Standardisierte Koeffizienten mit 95%-Konfidenzintervallen für eine multiple lineare Regression

Diese Ergebnisse zeigen deutlich, dass die Variable dani.sleep einen viel stärkeren Einfluss bzw. Effekt hat als die Variable baby.sleep. Dies ist jedoch ein perfektes Beispiel für eine Situation, in der es wahrscheinlich sinnvoll wäre, die ursprünglichen Koeffizienten b anstelle der standardisierten Koeffizienten β zu verwenden. Immerhin liegen mein Schlaf und der Schlaf des Babys bereits auf der gleichen Skala, nämlich „Anzahl der geschlafenen Stunden“. Warum die Sache verkomplizieren, indem man diese in z-Scores umwandelt?