So berechnen sie den variance inflation factor (vif) in sas


Bei der Regressionsanalyse tritt Multikollinearität auf, wenn zwei oder mehr Prädiktorvariablen stark miteinander korrelieren, sodass sie im Regressionsmodell keine eindeutigen oder unabhängigen Informationen liefern.

Wenn der Korrelationsgrad zwischen den Variablen hoch genug ist, kann dies zu Problemen bei der Anpassung und Interpretation des Regressionsmodells führen.

Eine Möglichkeit, Multikollinearität zu erkennen, ist die Verwendung einer Metrik namens Variance Inflation Factor (VIF) , die die Korrelation und Stärke der Korrelation zwischen erklärenden Variablen in einem Regressionsmodell misst.

In diesem Tutorial wird erklärt, wie man VIF in SAS berechnet.

Beispiel: Berechnung des VIF in SAS

Für dieses Beispiel erstellen wir einen Datensatz, der die Attribute von 10 Basketballspielern beschreibt:

 /*create dataset*/
data my_data;
    input rating points assists rebounds;
    datalines ;
90 25 5 11
85 20 7 8
82 14 7 10
88 16 8 6
94 27 5 6
90 20 7 9
76 12 6 6
75 15 9 10
87 14 9 10
86 19 5 7
;
run ;

/*view dataset*/
proc print data =my_data; 

Nehmen wir an, wir möchten ein multiples lineares Regressionsmodell anpassen, indem wir „scoring“ als Antwortvariable und „points“ , „assists “ und „ rebounds“ als Prädiktorvariablen verwenden.

Wir können PROC REG verwenden, um dieses Regressionsmodell mit der VIF- Option anzupassen, um VIF-Werte für jede Prädiktorvariable im Modell zu berechnen:

 /*fit regression model and calculate VIF values*/
proc reg data =my_data;
    model rating = points assists rebounds / lively ;
run ; 

VIF in SAS

Aus der Tabelle „Parameterschätzungen“ können wir die VIF-Werte für jede der Prädiktorvariablen sehen:

  • Punkte: 1,76398
  • Vorlagen: 1,96591
  • Rebounds: 1,17503

Hinweis: Ignorieren Sie das VIF für „Intercept“ in der Vorlage, da dieser Wert nicht relevant ist.

Der VIF-Wert beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Regel für die Interpretation von VIFs lautet:

  • Ein Wert von 1 gibt an, dass keine Korrelation zwischen einer bestimmten Prädiktorvariablen und einer anderen Prädiktorvariablen im Modell besteht.
  • Ein Wert zwischen 1 und 5 weist auf eine mäßige Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell hin, ist jedoch oft nicht schwerwiegend genug, um besondere Aufmerksamkeit zu erfordern.
  • Ein Wert größer als 5 weist auf eine potenziell schwerwiegende Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell hin. In diesem Fall sind die Koeffizientenschätzungen und p-Werte in den Regressionsergebnissen wahrscheinlich unzuverlässig.

Da jeder der VIF-Werte der Prädiktorvariablen in unserem Regressionsmodell nahe bei 1 liegt, ist Multikollinearität in unserem Beispiel kein Problem.

Wie man mit Multikollinearität umgeht

Wenn Sie feststellen, dass Multikollinearität ein Problem in Ihrem Regressionsmodell darstellt, gibt es mehrere gängige Möglichkeiten, es zu lösen:

1. Entfernen Sie eine oder mehrere der stark korrelierten Variablen.

Dies ist in den meisten Fällen die schnellste Lösung und oft eine akzeptable Lösung, da die von Ihnen entfernten Variablen ohnehin redundant sind und dem Modell nur wenige eindeutige oder unabhängige Informationen hinzufügen.

2. Kombiniert die Prädiktorvariablen auf irgendeine Weise linear, z. B. indem sie auf irgendeine Weise addiert oder subtrahiert werden.

Auf diese Weise können Sie eine neue Variable erstellen, die die Informationen beider Variablen umfasst, und Sie haben kein Multikollinearitätsproblem mehr.

3. Führen Sie eine Analyse durch, die stark korrelierte Variablen berücksichtigt, z. B. eine Hauptkomponentenanalyse oder eine PLS-Regression (Partial Least Squares).

Diese Techniken sind speziell für den Umgang mit stark korrelierten Prädiktorvariablen konzipiert.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in SAS ausführen:

So führen Sie eine multiple lineare Regression in SAS durch
So erstellen Sie ein Restdiagramm in SAS
So berechnen Sie die Kochdistanz in SAS

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert