Cara melakukan penghapusan listwise di r (dengan contoh)
Penghapusan listwise adalah metode yang menghapus semua baris dalam bingkai data yang memiliki nilai yang hilang dalam kolomnya .
Cara termudah untuk melakukan penghapusan listwise di R adalah dengan menggunakan sintaks berikut:
complete_df <- df[complete. boxes (df), ]
Sintaks ini menggunakan fungsi complete.cases() untuk membuat bingkai data baru yang hanya berisi baris-baris dari bingkai data asli yang tidak memiliki nilai yang hilang di kolom mana pun.
Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya.
Contoh: Lakukan penghapusan listwise di R
Misalkan kita memiliki kerangka data berikut di R yang berisi informasi tentang berbagai pemain bola basket:
#create data frame df <- data. frame (rating=c(70, 75, 75, 78, 81, 85, 89, 91, 94, 97), points=c(12, 15, 14, 13, NA, 29, 24, 18, 20, 25), assists=c(9, 5, NA, 5, 7, 8, 11, 12, 13, 11)) #view data frame df rating points assists 1 70 12 9 2 75 15 5 3 75 14 NA 4 78 13 5 5 81 NA 7 6 85 29 8 7 89 24 11 8 91 18 12 9 94 20 13 10 97 25 11
Perhatikan bahwa dua baris berisi nilai NA di beberapa kolom.
Kita dapat menggunakan sintaks berikut untuk melakukan penghapusan berdasarkan daftar dan hanya menyimpan baris yang tidak memiliki nilai yang hilang di kolom mana pun:
#create new data frame that only contains rows with no missing values complete_df <- df[complete. boxes (df), ] #view new data frame complete_df rating points assists 1 70 12 9 2 75 15 5 4 78 13 5 6 85 29 8 7 89 24 11 8 91 18 12 9 94 20 13 10 97 25 11
Perhatikan bahwa tidak ada baris dalam bingkai data baru ini yang memiliki nilai kosong di kolom mana pun.
Perhatikan juga bahwa kita dapat menggunakan fungsi nrow() untuk menentukan berapa banyak baris dalam bingkai data asli yang memiliki nilai yang hilang di kolom mana pun:
#count how many rows have missing values in any column nrow(df[ ! complete. cases (df), ]) [1] 2
Ini memberi tahu kita bahwa 2 baris dalam bingkai data asli memiliki nilai yang hilang di setidaknya satu kolom.
Dan kita dapat dengan mudah menghitung berapa banyak baris yang tidak memiliki nilai yang hilang di kolom mana pun:
#count how many rows do not have missing values in any column nrow(df[complete. cases (df), ]) [1] 8
Ini memberi tahu kita bahwa 8 baris bingkai data asli tidak memiliki nilai yang hilang di kolom mana pun.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:
Cara mencari dan menghitung nilai yang hilang di R
Cara menginterpolasi nilai yang hilang di R