Cara menggunakan cor() untuk menghitung koefisien korelasi di r
Anda dapat menggunakan fungsi cor() di R untuk menghitung koefisien korelasi antar variabel.
Berikut cara paling umum untuk menggunakan fitur ini:
Metode 1: menghitung koefisien korelasi Pearson antara dua variabel
cor(df$x, df$y)
Gunakan koefisien korelasi Pearson ketika menghitung korelasi antara dua variabel kontinu. (misalnya tinggi dan berat badan)
Metode 2: Hitung koefisien korelasi Pearson antara semua variabel numerik dalam kerangka data
cor(df)
Metode ini akan mengembalikan matriks korelasi yang berisi koefisien korelasi Pearson antara setiap kombinasi variabel numerik berpasangan dalam bingkai data.
Metode 3: menghitung koefisien korelasi Spearman antara dua variabel
cor(df$x, df$y, method=' spearman ')
Gunakan koefisien korelasi Spearman saat menghitung korelasi antara dua variabel yang diberi peringkat. (misalnya peringkat nilai ujian matematika siswa versus peringkat nilai ujian sains mereka di suatu kelas)
Metode 4: menghitung koefisien korelasi Kendall antara dua variabel
cor(df$x, df$y, method=' kendall ')
Gunakan koefisien korelasi Kendall bila Anda ingin menggunakan korelasi Spearman tetapi ukuran sampelnya kecil dan terdapat banyak ikatan.
Contoh berikut menunjukkan cara menggunakan masing-masing metode dalam praktik dengan kerangka data berikut di R yang menunjukkan jumlah jam yang dihabiskan untuk belajar, jumlah ujian praktik yang diambil, dan nilai ujian akhir untuk delapan siswa berbeda:
#create data frame
df <- data. frame (hours=c(1, 1, 3, 2, 4, 3, 5, 6),
prac_exams=c(4, 3, 3, 2, 3, 2, 1, 4),
score=c(69, 74, 74, 70, 89, 85, 99, 90))
#view data frame
df
hours prac_exams score
1 1 4 69
2 1 3 74
3 3 3 74
4 2 2 70
5 4 3 89
6 3 2 85
7 5 1 99
8 6 4 90
Contoh 1: Hitung koefisien korelasi Pearson antara dua variabel
Kode berikut menunjukkan cara menggunakan fungsi cor() untuk menghitung koefisien korelasi Pearson antara variabel jam dan skor :
#calculate Pearson correlation coefficient between hours and score
cor(df$hours, df$score)
[1] 0.8600528
Koefisien korelasi Pearson antara jam kerja dan skor ditemukan sebesar 0,86.
Perhatikan bahwa jika ada nilai NA dalam bingkai data Anda, Anda dapat menggunakan argumen use=’complete.obs’ untuk hanya menggunakan baris yang tidak memiliki nilai NA:
#calculate Pearson correlation coefficient and ignore any rows with NA cor(df$hours, df$score, use=' complete.obs ')
Contoh 2: Hitung koefisien korelasi Pearson antara semua variabel numerik
Kode berikut menunjukkan cara menggunakan fungsi cor() untuk membuat matriks korelasi yang berisi koefisien korelasi Pearson antara semua variabel numerik dalam bingkai data:
#calculate Pearson correlation coefficient between all numeric variables
cor(df)
hours prac_exams score
hours 1.0000000 -0.1336063 0.8600528
prac_exams -0.1336063 1.0000000 -0.3951028
score 0.8600528 -0.3951028 1.0000000
Berikut cara menafsirkan hasilnya:
- Koefisien korelasi Pearson antara jam dan latihan_ujian adalah -0.13 .
- Koefisien korelasi Pearson antara jam kerja dan skor adalah 0,86 .
- Koefisien korelasi Pearson antara prac_exams dan skor adalah -0,39 .
Catatan : Koefisien korelasi Pearson antara masing-masing variabel dengan dirinya sendiri selalu 1, oleh karena itu setiap nilai sepanjang diagonal matriks korelasi adalah 1.
Contoh 3: Hitung koefisien korelasi Spearman antara dua variabel
Kode berikut menunjukkan cara menggunakan fungsi cor() untuk menghitung koefisien korelasi Spearman antara variabel jam dan prac_exams :
#calculate Spearman correlation coefficient between hours and prac_exams cor(df$hours, df$prac_exams, method=' spearman ') [1] -0.1250391
Koefisien korelasi Spearman antara jam dan latihan_ujian ternyata sebesar -0,125.
Contoh 4: Hitung koefisien korelasi Kendall antara dua variabel
Kode berikut menunjukkan cara menggunakan fungsi cor() untuk menghitung koefisien korelasi Kendall antara variabel jam dan prac_exams :
#calculate Kendall's correlation coefficient between hours and prac_exams cor(df$hours, df$prac_exams, method=' kendall ') [1] -0.1226791
Koefisien korelasi Kendall antara jam dan latihan_ujian ternyata sebesar -0,123.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:
Cara menghitung korelasi geser di R
Cara menghitung autokorelasi di R
Cara menghitung korelasi parsial di R