Cara menghitung korelasi di r dengan nilai yang hilang


Anda dapat menggunakan metode berikut untuk menghitung koefisien korelasi di R ketika satu atau lebih variabel memiliki nilai yang hilang:

Metode 1: Hitung koefisien korelasi dengan nilai yang hilang

 cor(x, y, use=' complete.obs ')

Metode 2: Hitung matriks korelasi dengan nilai yang hilang

 cor(df, use=' pairwise.complete.obs ')

Contoh berikut menunjukkan cara menggunakan masing-masing metode dalam praktik.

Contoh 1: Hitung koefisien korelasi dengan nilai yang hilang

Misalkan kita mencoba menggunakan fungsi cor() untuk menghitung koefisien korelasi Pearson antara dua variabel ketika ada nilai yang hilang:

 #create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)

#attempt to calculate correlation coefficient between x and y
cor(x, y)

[1] NA

Fungsi cor() mengembalikan NA karena kita belum menentukan cara menangani nilai yang hilang.

Untuk menghindari masalah ini, kita dapat menggunakan argumen use=’complete.obs’ sehingga R mengetahui untuk hanya menggunakan observasi berpasangan jika kedua nilai ada:

 #create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)

#calculate correlation coefficient between x and y
cor(x, y, use=' complete.obs ')

[1] -0.4888749

Koefisien korelasi kedua variabel tersebut ternyata sebesar -0,488749 .

Perhatikan bahwa fungsi cor() hanya menggunakan kedua kombinasi berpasangan yang nilainya ada saat menghitung koefisien korelasi.

Contoh 2: Hitung matriks korelasi dengan nilai yang hilang

Misalkan kita mencoba menggunakan fungsi cor() untuk membuat matriks korelasi untuk bingkai data dengan tiga variabel ketika ada nilai yang hilang:

 #create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
                 y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
                 z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))

#attempt to create correlation matrix for variables in data frame
cor(df)

   X Y Z
x 1 NA NA
y NA 1 NA
z NA NA 1

Fungsi cor() mengembalikan NA di beberapa tempat karena kita belum menentukan cara menangani nilai yang hilang.

Untuk menghindari masalah ini, kita dapat menggunakan argumen use=’pairwise.complete.obs’ sehingga R mengetahui untuk hanya menggunakan observasi berpasangan jika kedua nilai ada:

 #create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
                 y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
                 z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))

#create correlation matrix for variables using only pairwise complete observations
cor(df, use=' pairwise.complete.obs ')

           X Y Z
x 1.0000000 -0.4888749 0.1311651
y -0.4888749 1.0000000 -0.1562371
z 0.1311651 -0.1562371 1.0000000

Koefisien korelasi untuk setiap kombinasi berpasangan variabel dalam database kini ditampilkan.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:

Cara mencari nilai P koefisien korelasi pada R
Cara menghitung korelasi Spearman di R
Cara menghitung korelasi geser di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *