So berechnen sie die korrelation zwischen zwei spalten in pandas


Sie können die folgende Syntax verwenden, um die Korrelation zwischen zwei Spalten in einem Pandas-DataFrame zu berechnen:

 df[' column1 ']. corr (df[' column2 '])

Die folgenden Beispiele zeigen, wie Sie diese Syntax in der Praxis anwenden können.

Beispiel 1: Berechnen Sie die Korrelation zwischen zwei Spalten

Der folgende Code zeigt, wie die Korrelation zwischen Spalten in einem Pandas-DataFrame berechnet wird:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view first five rows of DataFrame
df. head ()

        points assists rebounds
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calculate correlation between points and assists
df[' points ']. corr (df[' assists '])

-0.359384

Der Korrelationskoeffizient beträgt -0,359 . Da diese Korrelation negativ ist, bedeutet dies, dass Punkte und Assists negativ korrelieren.

Mit anderen Worten: Wenn die Werte in der Punktespalte steigen, nehmen die Werte in der Assists-Spalte tendenziell ab.

Beispiel 2: Korrelationssignifikanz berechnen

Um zu bestimmen, ob ein Korrelationskoeffizient statistisch signifikant ist oder nicht, können Sie die Funktion „pearsonr(x, y)“ aus der SciPy- Bibliothek verwenden.

Der folgende Code zeigt, wie man diese Funktion in der Praxis nutzt:

 import pandas as pd
from scipy. stats import pearsonr

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calculate p-value of correlation coefficient between points and assists
pearsonr(df[' points '], df[' assists '])

(-0.359384, 0.38192)

Der erste Wert der Ausgabe zeigt den Korrelationskoeffizienten (-0,359384) und der zweite Wert zeigt den p-Wert (0,38192) an, der diesem Korrelationskoeffizienten zugeordnet ist.

Da der p-Wert nicht kleiner als α = 0,05 ist, würden wir daraus schließen, dass die Korrelation zwischen Punkten und Assists statistisch nicht signifikant ist.

Zusätzliche Ressourcen

So berechnen Sie die Spearman-Rangkorrelation in Python
So berechnen Sie die partielle Korrelation in Python
So berechnen Sie die Kreuzkorrelation in Python

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert