Jak tworzyć i interpretować wykresy par w r


Wykres par to macierz wykresów rozrzutu, która pozwala zrozumieć relację parami pomiędzy różnymi zmiennymi w zbiorze danych.

Na szczęście łatwo jest utworzyć wykres par w R za pomocą funkcji pairs() . W tym samouczku przedstawiono kilka przykładów praktycznego wykorzystania tej funkcji.

Przykład 1: Wykres par wszystkich zmiennych

Poniższy kod demonstruje, jak utworzyć wykres par zasad dla wszystkich zmiennych w ramce danych w R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

Sposób interpretacji macierzy jest następujący:

  • Nazwy zmiennych są wyświetlane wzdłuż ukośnych ramek.
  • Wszystkie pozostałe pola przedstawiają wykres rozrzutu zależności pomiędzy każdą parą kombinacji zmiennych. Na przykład obszar w prawym górnym rogu macierzy wyświetla wykres rozrzutu wartości dla zm.1 i zm.3 . Środkowe lewe pole wyświetla wykres rozrzutu wartości dla var1 i var2 i tak dalej.

Ten pojedynczy wykres daje nam wyobrażenie o związku pomiędzy każdą parą zmiennych w naszym zbiorze danych. Na przykład zmienna 1 i zmienna 2 wydają się być dodatnio skorelowane, podczas gdy zmienna 1 i zmienna 3 wydają się mieć niewielką lub żadną korelację.

Przykład 2: Wykreślanie par określonych zmiennych

Poniższy kod ilustruje sposób tworzenia wykresu par zasad tylko dla pierwszych dwóch zmiennych w zestawie danych:

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

Wykreślanie określonych par zmiennych w R

Przykład 3: Zmień estetykę działki w parach

Poniższy kod demonstruje, jak zmienić estetykę wykresu par, w tym tytuł, kolor i etykiety:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

Wykreślanie niestandardowych par w R

Przykład 4: Uzyskiwanie korelacji z parami gg

Możesz także uzyskać współczynnik korelacji Pearsona pomiędzy zmiennymi za pomocą funkcji ggpairs() z biblioteki GGally. Poniższy kod ilustruje sposób użycia tej funkcji:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

Funkcja ggpairs w przykładzie R

Sposób interpretacji tej macierzy jest następujący:

  • Nazwy zmiennych są wyświetlane na zewnętrznych krawędziach macierzy.
  • Pola wzdłuż przekątnych przedstawiają wykres gęstości dla każdej zmiennej.
  • Pola w lewym dolnym rogu wyświetlają wykres rozrzutu pomiędzy każdą zmienną.
  • Pola w prawym górnym rogu wyświetlają współczynnik korelacji Pearsona pomiędzy każdą zmienną. Na przykład korelacja między zmienną 1 i zmienną 2 wynosi 0,425 .

Zaletą używania ggpairs() w porównaniu z podstawową funkcją R pairs() jest to, że można uzyskać więcej informacji o zmiennych. W szczególności można zobaczyć współczynnik korelacji pomiędzy każdą parą kombinacji zmiennych, a także wykres gęstości dla każdej indywidualnej zmiennej.

Pełną dokumentację funkcji ggpairs() znajdziesz tutaj .

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *