So lesen sie eine korrelationsmatrix
In der Statistik versuchen wir oft, die Beziehung zwischen zwei Variablen zu verstehen.
Beispielsweise möchten wir möglicherweise den Zusammenhang zwischen der Anzahl der Lernstunden eines Studenten und der Note, die er bei der Prüfung erhält, verstehen.
Eine Möglichkeit, diese Beziehung zu quantifizieren, ist die Verwendung des Pearson-Korrelationskoeffizienten , der ein Maß für den linearen Zusammenhang zwischen zwei Variablen ist . Es hat einen Wert zwischen -1 und 1, wobei:
- -1 zeigt eine vollkommen negative lineare Korrelation zwischen zwei Variablen an
- 0 bedeutet, dass zwischen zwei Variablen keine lineare Korrelation besteht
- 1 zeigt eine vollkommen positive lineare Korrelation zwischen zwei Variablen an
Je weiter der Korrelationskoeffizient von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.
Verwandt: Was gilt als „starke“ Korrelation?
In manchen Fällen möchten wir jedoch die Korrelation zwischen mehreren Variablenpaaren verstehen. In diesen Fällen können wir eine Korrelationsmatrix erstellen, bei der es sich um eine quadratische Tabelle handelt, die die Korrelationskoeffizienten zwischen mehreren Variablen anzeigt.
Beispiel einer Korrelationsmatrix
Die folgende Korrelationsmatrix stellt die Korrelationskoeffizienten zwischen mehreren bildungsbezogenen Variablen dar:
Jede Zelle in der Tabelle zeigt die Korrelation zwischen zwei spezifischen Variablen. Die hervorgehobene Zelle unten zeigt beispielsweise, dass die Korrelation zwischen „Lernstunden“ und „Prüfungsnote“ 0,82 beträgt, was darauf hindeutet, dass sie stark positiv korrelieren. Mehr Lernstunden sind eng mit höheren Prüfungsergebnissen verbunden.
Und die hervorgehobene Zelle unten zeigt, dass die Korrelation zwischen „Stunden, die mit Lernen verbracht wurden“ und „Stunden, die mit Schlafen verbracht wurden“ -0,22 beträgt, was darauf hindeutet, dass sie schwach negativ korrelieren. Mehr Stunden, die man mit Lernen verbringt, sind mit weniger Stunden, die man mit Schlafen verbringt, verbunden.
Und die hervorgehobene Zelle unten zeigt, dass die Korrelation zwischen „Schlafstunden“ und „IQ-Wert“ 0,06 beträgt, was darauf hindeutet, dass sie grundsätzlich nicht korrelieren. Es besteht nur ein sehr geringer Zusammenhang zwischen der Anzahl der Schlafstunden eines Schülers und seinem IQ-Wert.
Beachten Sie außerdem, dass die Korrelationskoeffizienten entlang der Diagonalen der Tabelle alle gleich 1 sind, da jede Variable perfekt mit sich selbst korreliert. Diese Zellen sind für die Interpretation nicht nützlich.
Variationen der Korrelationsmatrix
Beachten Sie, dass eine Korrelationsmatrix vollkommen symmetrisch ist. Beispielsweise zeigt die Zelle oben rechts genau den gleichen Wert wie die Zelle unten links:
Tatsächlich messen die beiden Zellen den Zusammenhang zwischen „Lernstunden“ und „Schulnote“.
Da eine Korrelationsmatrix symmetrisch ist, ist die Hälfte der in der Matrix angezeigten Korrelationskoeffizienten redundant und unnötig. Daher wird manchmal nur die Hälfte der Korrelationsmatrix angezeigt:
Und manchmal wird eine Korrelationsmatrix wie eine Wärmekarte eingefärbt, um die Korrelationskoeffizienten noch besser lesbar zu machen:
Wann ist eine Korrelationsmatrix zu verwenden?
In der Praxis wird aus drei Gründen häufig eine Korrelationsmatrix verwendet:
1. Eine Korrelationsmatrix fasst bequem einen Datensatz zusammen.
Eine Korrelationsmatrix ist eine einfache Möglichkeit, die Korrelationen zwischen allen Variablen in einem Datensatz zusammenzufassen. Angenommen, wir haben den folgenden Datensatz mit den folgenden Informationen für 1.000 Studenten:
Es wäre sehr schwierig, die Beziehung zwischen den einzelnen Variablen allein anhand der Rohdaten zu verstehen. Glücklicherweise kann uns eine Korrelationsmatrix dabei helfen, die Korrelationen zwischen den einzelnen Variablenpaaren schnell zu verstehen.
2. Als Diagnose für die Regression dient eine Korrelationsmatrix.
Eine der wichtigsten Annahmen der multiplen linearen Regression besteht darin, dass keine unabhängige Variable im Modell stark mit einer anderen Variablen im Modell korreliert.
Wenn zwei unabhängige Variablen stark korrelieren, führt dies zu einem Problem namens Multikollinearität und kann die Interpretation der Regressionsergebnisse erschweren.
Eine der einfachsten Möglichkeiten, ein potenzielles Multikollinearitätsproblem zu erkennen, besteht darin, sich eine Korrelationsmatrix anzusehen und visuell zu überprüfen, ob eine der Variablen stark miteinander korreliert.
3. Eine Korrelationsmatrix kann als Eingabe für andere Analysen verwendet werden.
Eine Korrelationsmatrix wird als Eingabe für andere komplexe Analysen wie explorative Faktorenanalysen und Strukturgleichungsmodelle verwendet.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie mit verschiedenen Statistiksoftware eine Korrelationsmatrix erstellen:
So erstellen Sie eine Korrelationsmatrix in Excel
So erstellen Sie eine Korrelationsmatrix in SPSS
So erstellen Sie eine Korrelationsmatrix in Stata
So erstellen Sie eine Korrelationsmatrix in Python