So verwenden sie cor() zur berechnung von korrelationskoeffizienten in r


Sie können die Funktion cor() in R verwenden, um Korrelationskoeffizienten zwischen Variablen zu berechnen.

Hier sind die häufigsten Möglichkeiten, diese Funktion zu verwenden:

Methode 1: Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen zwei Variablen

 cor(df$x, df$y)

Verwenden Sie den Pearson-Korrelationskoeffizienten, wenn Sie die Korrelation zwischen zwei kontinuierlichen Variablen berechnen. (z. B. Größe und Gewicht)

Methode 2: Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen allen numerischen Variablen im Datenrahmen

 cor(df)

Diese Methode gibt eine Korrelationsmatrix zurück, die den Pearson-Korrelationskoeffizienten zwischen jeder paarweisen Kombination numerischer Variablen in einem Datenrahmen enthält.

Methode 3: Berechnen Sie den Spearman-Korrelationskoeffizienten zwischen zwei Variablen

 cor(df$x, df$y, method=' spearman ')

Verwenden Sie den Korrelationskoeffizienten nach Spearman, wenn Sie die Korrelation zwischen zwei Rangvariablen berechnen. (z. B. Rangfolge der Mathematikprüfungsergebnisse eines Schülers im Vergleich zur Rangfolge seiner naturwissenschaftlichen Prüfungsergebnisse in einer Klasse)

Methode 4: Berechnen Sie den Kendall-Korrelationskoeffizienten zwischen zwei Variablen

 cor(df$x, df$y, method=' kendall ')

Verwenden Sie den Kendall-Korrelationskoeffizienten, wenn Sie die Spearman-Korrelation verwenden möchten, die Stichprobengröße jedoch klein ist und viele Bindungen bestehen.

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Datenrahmen in R verwendet wird, der die Anzahl der Lernstunden, die Anzahl der abgelegten Übungsprüfungen und die Abschlussprüfungsnote für acht verschiedene Studenten anzeigt:

 #create data frame
df <- data. frame (hours=c(1, 1, 3, 2, 4, 3, 5, 6),
                 prac_exams=c(4, 3, 3, 2, 3, 2, 1, 4),
                 score=c(69, 74, 74, 70, 89, 85, 99, 90))

#view data frame
df

  hours prac_exams score
1 1 4 69
2 1 3 74
3 3 3 74
4 2 2 70
5 4 3 89
6 3 2 85
7 5 1 99
8 6 4 90

Beispiel 1: Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen zwei Variablen

Der folgende Code zeigt, wie Sie mit der Funktion cor() den Pearson-Korrelationskoeffizienten zwischen den Stunden- und Score -Variablen berechnen:

 #calculate Pearson correlation coefficient between hours and score
cor(df$hours, df$score)

[1] 0.8600528

Der Pearson-Korrelationskoeffizient zwischen Stunden und Punktzahl betrug 0,86.

Beachten Sie, dass Sie, wenn Ihr Datenrahmen NA-Werte enthält, das Argument use=’complete.obs‘ verwenden können, um nur die Zeilen zu verwenden, in denen keine NA-Werte vorhanden sind:

 #calculate Pearson correlation coefficient and ignore any rows with NA
cor(df$hours, df$score, use=' complete.obs ')

Beispiel 2: Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen allen numerischen Variablen

Der folgende Code zeigt, wie Sie mit der Funktion cor() eine Korrelationsmatrix erstellen, die den Pearson-Korrelationskoeffizienten zwischen allen numerischen Variablen im Datenrahmen enthält:

 #calculate Pearson correlation coefficient between all numeric variables
cor(df)

                hours prac_exams score
hours 1.0000000 -0.1336063 0.8600528
prac_exams -0.1336063 1.0000000 -0.3951028
score 0.8600528 -0.3951028 1.0000000

So interpretieren Sie das Ergebnis:

  • Der Pearson-Korrelationskoeffizient zwischen Stunden und prac_exams beträgt -0,13 .
  • Der Pearson-Korrelationskoeffizient zwischen Stunden und Punktzahl beträgt 0,86 .
  • Der Pearson-Korrelationskoeffizient zwischen prac_exams und der Punktzahl beträgt -0,39 .

Hinweis : Der Pearson-Korrelationskoeffizient zwischen jeder einzelnen Variablen und sich selbst beträgt immer 1, weshalb jeder Wert entlang der Diagonale der Korrelationsmatrix 1 ist.

Beispiel 3: Berechnen Sie den Spearman-Korrelationskoeffizienten zwischen zwei Variablen

Der folgende Code zeigt, wie Sie mit der Funktion cor() den Spearman-Korrelationskoeffizienten zwischen den Stunden- und prac_exams -Variablen berechnen:

 #calculate Spearman correlation coefficient between hours and prac_exams
cor(df$hours, df$prac_exams, method=' spearman ')

[1] -0.1250391

Der Spearman-Korrelationskoeffizient zwischen Stunden und prac_exams beträgt -0,125.

Beispiel 4: Berechnen Sie den Kendall-Korrelationskoeffizienten zwischen zwei Variablen

Der folgende Code zeigt, wie Sie mit der Funktion cor() den Kendall-Korrelationskoeffizienten zwischen den Stunden- und prac_exams -Variablen berechnen:

 #calculate Kendall's correlation coefficient between hours and prac_exams
cor(df$hours, df$prac_exams, method=' kendall ')

[1] -0.1226791

Der Kendall-Korrelationskoeffizient zwischen Stunden und prac_exams beträgt -0,123.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie Sie andere häufige Aufgaben in R ausführen:

So berechnen Sie die gleitende Korrelation in R
So berechnen Sie die Autokorrelation in R
So berechnen Sie die partielle Korrelation in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert