Autor des Abschnitts: Danielle J. Navarro and David R. Foxcroft

Voraussetzungen für das Durchführen einer Regression

Das lineare Regressionsmodell, das ich besprochen habe, beruht auf mehreren Voraussetzungen. Im Abschnitt Modellprüfung werden wir mehr darüber sprechen, wie überprüft werden kann, ob diese Voraussetzungen erfüllt sind, aber lassen Sie uns zuerst einen Blick auf die einzelnen Voraussetzungen werfen.

Normalverteilung. Wie viele Modelle in der Statistik beruht auch die einfache oder multiple lineare Regression auf der Annahme einer Normalverteilung. Insbesondere wird angenommen, dass die Residuen normalverteilt sind. Es ist eigentlich in Ordnung, wenn die Prädiktoren X und das Ergebnis Y nicht normalverteilt sind, solange die Residuen ε normalverteilt sind (siehe Abschnitt Überprüfen der Normalverteilung der Residuen.
Linearität. Eine grundlegende Annahme des linearen Regressionsmodells ist, dass die Beziehung zwischen X und Y tatsächlich linear ist! Unabhängig davon, ob es sich um eine einfache Regression oder eine multiple Regression handelt, gehen wir davon aus, dass die beteiligten Beziehungen linear sind.
Varianzhomogenität. Streng genommen geht das Regressionsmodell davon aus, dass jede verbleibende ε:sub:‘i‘ aus einer Normalverteilung mit Mittelwert 0 und (für die aktuellen Zwecke wichtiger) mit einer Standardabweichung σ erzeugt wird, die für jedes einzelne Residuum gleich ist. In der Praxis ist es unmöglich, die Annahme zu testen, dass jedes Residuum gleich verteilt ist. Stattdessen kümmern wir uns darum, dass die Standardabweichungen der Residuen für alle Werte von Ŷ und (wenn wir besonders paranoid sind) alle Werte jedes Prädiktors X im Modell gleich ist.
Unkorrelierte Prädiktoren. Die Idee dabei ist, dass Sie in einem multiplen Regressionsmodell nicht möchten, dass Ihre Prädiktoren zu stark miteinander korrelieren. Dies ist „technisch“ keine Annahme des Regressionsmodells, aber in der Praxis ist es erforderlich. Prädiktoren, die stark miteinander korreliert sind (die wird als „Kollinearität“ bezeichnet), können Probleme beim Überprüfen des Modells verursachen (vgl. Abschnitt Prüfen auf Kollinearität).
Die Residuen sind unabhängig voneinander. Dies ist eine unspezifische (catch all) Annahme, die besagt, dass „in den Residuen keine seltsamen Dinge vorgehen“. Wenn etwas Seltsames vor sich geht (z. B. wenn die Residuen alle stark von einer anderen nicht gemessenen Variablen abhängen), könnte es unser Modell ungültig machen.
Keine „schlechten“ Ausreißer. Auch hier handelt es sich nicht wirklich um eine technische Annahme des Modells (oder genau genommen wird es von allen Modellen erwartet). Aber es gibt eine implizite Annahme, dass Ihr Regressionsmodell aus diesem Grund nicht zu stark von ein oder zwei anomalen Datenpunkten beeinflusst wird. Wäre dies der Fall, würde es Fragen zur Angemessenheit des Modells und der Vertrauenswürdigkeit der Daten aufwerfen (vgl. Abschnitt Drei Arten von anomalen Daten).