So führen sie einen korrelationstest in python durch (mit beispiel)
Eine Möglichkeit, die Beziehung zwischen zwei Variablen zu quantifizieren, ist die Verwendung des Pearson-Korrelationskoeffizienten , der den linearen Zusammenhang zwischen zwei Variablen misst .
Es nimmt immer einen Wert zwischen -1 und 1 an, wobei:
- -1 zeigt eine vollkommen negative lineare Korrelation an
- 0 bedeutet keine lineare Korrelation
- 1 zeigt eine vollkommen positive lineare Korrelation an
Um festzustellen, ob ein Korrelationskoeffizient statistisch signifikant ist, können Sie den entsprechenden t-Score und p-Wert berechnen.
Die Formel zur Berechnung des t-Scores eines Korrelationskoeffizienten (r) lautet:
t = r * √ n-2 / √ 1-r 2
Der p-Wert wird dann als entsprechender zweiseitiger p-Wert für die t-Verteilung mit n-2 Freiheitsgraden berechnet.
Beispiel: Korrelationstest in Python
Um festzustellen, ob der Korrelationskoeffizient zwischen zwei Variablen statistisch signifikant ist, können Sie in Python einen Korrelationstest mit der Funktion „pearsonr“ aus der SciPy- Bibliothek durchführen.
Diese Funktion gibt den Korrelationskoeffizienten zwischen zwei Variablen sowie den zweiseitigen p-Wert zurück.
Angenommen, wir haben die folgenden zwei Tabellen in Python:
#create two arrays
x = [3, 4, 4, 5, 7, 8, 10, 12, 13, 15]
y = [2, 4, 4, 5, 4, 7, 8, 19, 14, 10]
Wir können die Pearsonr- Funktion importieren und den Pearson-Korrelationskoeffizienten zwischen den beiden Tabellen berechnen:
from scipy. stats . stats import pearsonr #calculation correlation coefficient and p-value between x and y pearsonr(x, y) (0.8076177030748631, 0.004717255828132089)
So interpretieren Sie das Ergebnis:
- Pearson-Korrelationskoeffizient (r): 0,8076
- Zweiseitiger p-Wert: 0,0047
Da der Korrelationskoeffizient nahe bei 1 liegt, bedeutet dies, dass zwischen den beiden Variablen ein starker positiver Zusammenhang besteht.
Und da der entsprechende p-Wert kleiner als 0,05 ist, schließen wir, dass zwischen den beiden Variablen ein statistisch signifikanter Zusammenhang besteht.
Beachten Sie, dass wir den einzelnen Korrelationskoeffizienten und den p-Wert auch aus der Pearson- Funktion extrahieren können:
#extract correlation coefficient (rounded to 4 decimal places) r = round(pearsonr(x, y)[ 0 ], 4) print (r) 0.8076 #extract p-value (rounded to 4 decimal places) p = round(pearsonr(x, y)[ 1 ], 4) print (p) 0.0047
Diese Werte sind im Vergleich zur Ausgabe der ursprünglichen Pearsonr- Funktion etwas einfacher zu lesen.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zu Korrelationskoeffizienten:
Eine Einführung in den Pearson-Korrelationskoeffizienten
Was gilt als „starke“ Korrelation?
Die fünf Hypothesen der Pearson-Korrelation