So erstellen sie eine korrelationsmatrix in python


Eine Möglichkeit, die Beziehung zwischen zwei Variablen zu quantifizieren, ist die Verwendung des Pearson-Korrelationskoeffizienten , der ein Maß für den linearen Zusammenhang zwischen zwei Variablen ist .

Es nimmt einen Wert zwischen -1 und 1 an, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation an.
  • 0 bedeutet keine lineare Korrelation.
  • 1 zeigt eine vollkommen positive lineare Korrelation an.

Je weiter der Korrelationskoeffizient von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.

In manchen Fällen möchten wir jedoch die Korrelation zwischen mehreren Variablenpaaren verstehen. In diesen Fällen können wir eine Korrelationsmatrix erstellen, bei der es sich um eine quadratische Tabelle handelt, die die Korrelationskoeffizienten zwischen mehreren paarweisen Kombinationen von Variablen zeigt.

In diesem Tutorial wird erläutert, wie Sie eine Korrelationsmatrix in Python erstellen und interpretieren.

So erstellen Sie eine Korrelationsmatrix in Python

Führen Sie die folgenden Schritte aus, um eine Korrelationsmatrix in Python zu erstellen.

Schritt 1: Erstellen Sie den Datensatz.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Schritt 2: Erstellen Sie die Korrelationsmatrix.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Schritt 3: Interpretieren Sie die Korrelationsmatrix.

Die Korrelationskoeffizienten entlang der Diagonalen der Tabelle sind alle gleich 1, da jede Variable perfekt mit sich selbst korreliert.

Alle anderen Korrelationskoeffizienten geben die Korrelation zwischen verschiedenen paarweisen Kombinationen von Variablen an. Zum Beispiel:

  • Der Korrelationskoeffizient zwischen Assists und Rebounds beträgt -0,245 .
  • Der Korrelationskoeffizient zwischen Assists und Punkten beträgt -0,330 .
  • Der Korrelationskoeffizient zwischen Rebounds und Punkten beträgt -0,522 .

Schritt 4: Visualisieren Sie die Korrelationsmatrix (optional).

Sie können die Korrelationsmatrix mithilfe der in Pandas verfügbaren Stiloptionen visualisieren:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Korrelationsmatrix in Python

Sie können auch das Argument cmap ändern, um eine Korrelationsmatrix mit verschiedenen Farben zu erstellen.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Korrelationsmatrix mit Matplotlib in Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Korrelationsmatrix mit Pandas

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Beispiel einer Korrelationsmatrix in Python

Hinweis : Eine vollständige Liste der cmap- Argumente finden Sie in der Matplotlib-Dokumentation .

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert