Cara membuat dan menafsirkan plot berpasangan di r
Plot berpasangan adalah matriks scatterplot yang memungkinkan Anda memahami hubungan berpasangan antara variabel berbeda dalam kumpulan data.
Untungnya, mudah untuk membuat plot berpasangan di R menggunakan fungsi pair() . Tutorial ini memberikan beberapa contoh penggunaan praktis fungsi ini.
Contoh 1: Plot Pasangan Semua Variabel
Kode berikut menunjukkan cara membuat plot pasangan basa untuk semua variabel dalam bingkai data di R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Cara menafsirkan matriks adalah sebagai berikut:
- Nama variabel ditampilkan di sepanjang kotak diagonal.
- Semua kotak lainnya menampilkan diagram sebar hubungan antara setiap kombinasi variabel berpasangan. Misalnya, area di sudut kanan atas matriks menampilkan sebar nilai untuk var1 dan var3 . Kotak kiri tengah menampilkan sebar nilai untuk var1 dan var2 , dan seterusnya.
Grafik tunggal ini memberi kita gambaran tentang hubungan antara setiap pasangan variabel dalam kumpulan data kita. Misalnya, var1 dan var2 tampaknya berkorelasi positif, sedangkan var1 dan var3 tampaknya memiliki sedikit atau tidak ada korelasi.
Contoh 2: Merencanakan Pasangan Variabel Tertentu
Kode berikut menunjukkan cara membuat plot pasangan basa hanya untuk dua variabel pertama dalam kumpulan data:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Contoh 3: Mengubah estetika plot berpasangan
Kode berikut menunjukkan cara mengubah estetika plot berpasangan, termasuk judul, warna, dan label:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Contoh 4: Mendapatkan korelasi dengan ggpairs
Anda juga bisa mendapatkan koefisien korelasi Pearson antar variabel menggunakan fungsi ggpairs() dari perpustakaan GGally. Kode berikut menunjukkan cara menggunakan fungsi ini:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Cara menafsirkan matriks ini adalah sebagai berikut:
- Nama variabel ditampilkan di tepi luar matriks.
- Kotak di sepanjang diagonal menampilkan plot kepadatan untuk setiap variabel.
- Kotak di pojok kiri bawah menampilkan diagram sebar antar masing-masing variabel.
- Kotak di pojok kanan atas menampilkan koefisien korelasi Pearson antar masing-masing variabel. Misalnya, korelasi antara var1 dan var2 adalah 0.425 .
Keuntungan menggunakan ggpairs() dibandingkan fungsi dasar R pair() adalah Anda bisa mendapatkan lebih banyak informasi tentang variabel. Secara khusus, Anda dapat melihat koefisien korelasi antara setiap kombinasi variabel berpasangan serta plot kepadatan untuk setiap variabel individual.
Anda dapat menemukan dokumentasi lengkap untuk fungsi ggpairs() di sini .