So lesen sie eine korrelationsmatrix


In der Statistik versuchen wir oft, die Beziehung zwischen zwei Variablen zu verstehen.

Beispielsweise möchten wir möglicherweise den Zusammenhang zwischen der Anzahl der Lernstunden eines Studenten und der Note, die er bei der Prüfung erhält, verstehen.

Eine Möglichkeit, diese Beziehung zu quantifizieren, ist die Verwendung des Pearson-Korrelationskoeffizienten , der ein Maß für den linearen Zusammenhang zwischen zwei Variablen ist . Es hat einen Wert zwischen -1 und 1, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation zwischen zwei Variablen an
  • 0 bedeutet, dass zwischen zwei Variablen keine lineare Korrelation besteht
  • 1 zeigt eine vollkommen positive lineare Korrelation zwischen zwei Variablen an

Je weiter der Korrelationskoeffizient von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.

Verwandt: Was gilt als „starke“ Korrelation?

In manchen Fällen möchten wir jedoch die Korrelation zwischen mehreren Variablenpaaren verstehen. In diesen Fällen können wir eine Korrelationsmatrix erstellen, bei der es sich um eine quadratische Tabelle handelt, die die Korrelationskoeffizienten zwischen mehreren Variablen anzeigt.

Beispiel einer Korrelationsmatrix

Die folgende Korrelationsmatrix stellt die Korrelationskoeffizienten zwischen mehreren bildungsbezogenen Variablen dar:

Beispiel einer Korrelationsmatrix

Jede Zelle in der Tabelle zeigt die Korrelation zwischen zwei spezifischen Variablen. Die hervorgehobene Zelle unten zeigt beispielsweise, dass die Korrelation zwischen „Lernstunden“ und „Prüfungsnote“ 0,82 beträgt, was darauf hindeutet, dass sie stark positiv korrelieren. Mehr Lernstunden sind eng mit höheren Prüfungsergebnissen verbunden.

Beispiel für das Lesen einer Korrelationsmatrix

Und die hervorgehobene Zelle unten zeigt, dass die Korrelation zwischen „Stunden, die mit Lernen verbracht wurden“ und „Stunden, die mit Schlafen verbracht wurden“ -0,22 beträgt, was darauf hindeutet, dass sie schwach negativ korrelieren. Mehr Stunden, die man mit Lernen verbringt, sind mit weniger Stunden, die man mit Schlafen verbringt, verbunden.

Beispiel einer negativen Korrelation in einer Korrelationsmatrix

Und die hervorgehobene Zelle unten zeigt, dass die Korrelation zwischen „Schlafstunden“ und „IQ-Wert“ 0,06 beträgt, was darauf hindeutet, dass sie grundsätzlich nicht korrelieren. Es besteht nur ein sehr geringer Zusammenhang zwischen der Anzahl der Schlafstunden eines Schülers und seinem IQ-Wert.

Beispiel einer Korrelationsmatrix ohne Korrelation

Beachten Sie außerdem, dass die Korrelationskoeffizienten entlang der Diagonalen der Tabelle alle gleich 1 sind, da jede Variable perfekt mit sich selbst korreliert. Diese Zellen sind für die Interpretation nicht nützlich.

Beispiel für diagonale Zellen in einer Korrelationsmatrix

Variationen der Korrelationsmatrix

Beachten Sie, dass eine Korrelationsmatrix vollkommen symmetrisch ist. Beispielsweise zeigt die Zelle oben rechts genau den gleichen Wert wie die Zelle unten links:

Beispiel für eine symmetrische Korrelationsmatrix

Tatsächlich messen die beiden Zellen den Zusammenhang zwischen „Lernstunden“ und „Schulnote“.

Da eine Korrelationsmatrix symmetrisch ist, ist die Hälfte der in der Matrix angezeigten Korrelationskoeffizienten redundant und unnötig. Daher wird manchmal nur die Hälfte der Korrelationsmatrix angezeigt:

Die Hälfte einer Korrelationsmatrix

Und manchmal wird eine Korrelationsmatrix wie eine Wärmekarte eingefärbt, um die Korrelationskoeffizienten noch besser lesbar zu machen:

Beispiel einer Heatmap-Korrelationsmatrix

Wann ist eine Korrelationsmatrix zu verwenden?

In der Praxis wird aus drei Gründen häufig eine Korrelationsmatrix verwendet:

1. Eine Korrelationsmatrix fasst bequem einen Datensatz zusammen.

Eine Korrelationsmatrix ist eine einfache Möglichkeit, die Korrelationen zwischen allen Variablen in einem Datensatz zusammenzufassen. Angenommen, wir haben den folgenden Datensatz mit den folgenden Informationen für 1.000 Studenten:

Beispiel-Rohdatensatz für Korrelationsmatrix

Es wäre sehr schwierig, die Beziehung zwischen den einzelnen Variablen allein anhand der Rohdaten zu verstehen. Glücklicherweise kann uns eine Korrelationsmatrix dabei helfen, die Korrelationen zwischen den einzelnen Variablenpaaren schnell zu verstehen.

2. Als Diagnose für die Regression dient eine Korrelationsmatrix.

Eine der wichtigsten Annahmen der multiplen linearen Regression besteht darin, dass keine unabhängige Variable im Modell stark mit einer anderen Variablen im Modell korreliert.

Wenn zwei unabhängige Variablen stark korrelieren, führt dies zu einem Problem namens Multikollinearität und kann die Interpretation der Regressionsergebnisse erschweren.

Eine der einfachsten Möglichkeiten, ein potenzielles Multikollinearitätsproblem zu erkennen, besteht darin, sich eine Korrelationsmatrix anzusehen und visuell zu überprüfen, ob eine der Variablen stark miteinander korreliert.

3. Eine Korrelationsmatrix kann als Eingabe für andere Analysen verwendet werden.

Eine Korrelationsmatrix wird als Eingabe für andere komplexe Analysen wie explorative Faktorenanalysen und Strukturgleichungsmodelle verwendet.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie mit verschiedenen Statistiksoftware eine Korrelationsmatrix erstellen:

So erstellen Sie eine Korrelationsmatrix in Excel
So erstellen Sie eine Korrelationsmatrix in SPSS
So erstellen Sie eine Korrelationsmatrix in Stata
So erstellen Sie eine Korrelationsmatrix in Python

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert