So führen sie einen korrelationstest in python durch (mit beispiel)


Eine Möglichkeit, die Beziehung zwischen zwei Variablen zu quantifizieren, ist die Verwendung des Pearson-Korrelationskoeffizienten , der den linearen Zusammenhang zwischen zwei Variablen misst .

Es nimmt immer einen Wert zwischen -1 und 1 an, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation an
  • 0 bedeutet keine lineare Korrelation
  • 1 zeigt eine vollkommen positive lineare Korrelation an

Um festzustellen, ob ein Korrelationskoeffizient statistisch signifikant ist, können Sie den entsprechenden t-Score und p-Wert berechnen.

Die Formel zur Berechnung des t-Scores eines Korrelationskoeffizienten (r) lautet:

t = r * √ n-2 / √ 1-r 2

Der p-Wert wird dann als entsprechender zweiseitiger p-Wert für die t-Verteilung mit n-2 Freiheitsgraden berechnet.

Beispiel: Korrelationstest in Python

Um festzustellen, ob der Korrelationskoeffizient zwischen zwei Variablen statistisch signifikant ist, können Sie in Python einen Korrelationstest mit der Funktion „pearsonr“ aus der SciPy- Bibliothek durchführen.

Diese Funktion gibt den Korrelationskoeffizienten zwischen zwei Variablen sowie den zweiseitigen p-Wert zurück.

Angenommen, wir haben die folgenden zwei Tabellen in Python:

 #create two arrays
x = [3, 4, 4, 5, 7, 8, 10, 12, 13, 15]
y = [2, 4, 4, 5, 4, 7, 8, 19, 14, 10]

Wir können die Pearsonr- Funktion importieren und den Pearson-Korrelationskoeffizienten zwischen den beiden Tabellen berechnen:

 from scipy. stats . stats import pearsonr

#calculation correlation coefficient and p-value between x and y
pearsonr(x, y)

(0.8076177030748631, 0.004717255828132089)

So interpretieren Sie das Ergebnis:

  • Pearson-Korrelationskoeffizient (r): 0,8076
  • Zweiseitiger p-Wert: 0,0047

Da der Korrelationskoeffizient nahe bei 1 liegt, bedeutet dies, dass zwischen den beiden Variablen ein starker positiver Zusammenhang besteht.

Und da der entsprechende p-Wert kleiner als 0,05 ist, schließen wir, dass zwischen den beiden Variablen ein statistisch signifikanter Zusammenhang besteht.

Beachten Sie, dass wir den einzelnen Korrelationskoeffizienten und den p-Wert auch aus der Pearson- Funktion extrahieren können:

 #extract correlation coefficient (rounded to 4 decimal places)
r = round(pearsonr(x, y)[ 0 ], 4)

print (r)

0.8076

#extract p-value (rounded to 4 decimal places) 
p = round(pearsonr(x, y)[ 1 ], 4)

print (p) 

0.0047

Diese Werte sind im Vergleich zur Ausgabe der ursprünglichen Pearsonr- Funktion etwas einfacher zu lesen.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zu Korrelationskoeffizienten:

Eine Einführung in den Pearson-Korrelationskoeffizienten
Was gilt als „starke“ Korrelation?
Die fünf Hypothesen der Pearson-Korrelation

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert