Jak tworzyć i interpretować wykresy par w r
Wykres par to macierz wykresów rozrzutu, która pozwala zrozumieć relację parami pomiędzy różnymi zmiennymi w zbiorze danych.
Na szczęście łatwo jest utworzyć wykres par w R za pomocą funkcji pairs() . W tym samouczku przedstawiono kilka przykładów praktycznego wykorzystania tej funkcji.
Przykład 1: Wykres par wszystkich zmiennych
Poniższy kod demonstruje, jak utworzyć wykres par zasad dla wszystkich zmiennych w ramce danych w R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Sposób interpretacji macierzy jest następujący:
- Nazwy zmiennych są wyświetlane wzdłuż ukośnych ramek.
- Wszystkie pozostałe pola przedstawiają wykres rozrzutu zależności pomiędzy każdą parą kombinacji zmiennych. Na przykład obszar w prawym górnym rogu macierzy wyświetla wykres rozrzutu wartości dla zm.1 i zm.3 . Środkowe lewe pole wyświetla wykres rozrzutu wartości dla var1 i var2 i tak dalej.
Ten pojedynczy wykres daje nam wyobrażenie o związku pomiędzy każdą parą zmiennych w naszym zbiorze danych. Na przykład zmienna 1 i zmienna 2 wydają się być dodatnio skorelowane, podczas gdy zmienna 1 i zmienna 3 wydają się mieć niewielką lub żadną korelację.
Przykład 2: Wykreślanie par określonych zmiennych
Poniższy kod ilustruje sposób tworzenia wykresu par zasad tylko dla pierwszych dwóch zmiennych w zestawie danych:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Przykład 3: Zmień estetykę działki w parach
Poniższy kod demonstruje, jak zmienić estetykę wykresu par, w tym tytuł, kolor i etykiety:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Przykład 4: Uzyskiwanie korelacji z parami gg
Możesz także uzyskać współczynnik korelacji Pearsona pomiędzy zmiennymi za pomocą funkcji ggpairs() z biblioteki GGally. Poniższy kod ilustruje sposób użycia tej funkcji:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Sposób interpretacji tej macierzy jest następujący:
- Nazwy zmiennych są wyświetlane na zewnętrznych krawędziach macierzy.
- Pola wzdłuż przekątnych przedstawiają wykres gęstości dla każdej zmiennej.
- Pola w lewym dolnym rogu wyświetlają wykres rozrzutu pomiędzy każdą zmienną.
- Pola w prawym górnym rogu wyświetlają współczynnik korelacji Pearsona pomiędzy każdą zmienną. Na przykład korelacja między zmienną 1 i zmienną 2 wynosi 0,425 .
Zaletą używania ggpairs() w porównaniu z podstawową funkcją R pairs() jest to, że można uzyskać więcej informacji o zmiennych. W szczególności można zobaczyć współczynnik korelacji pomiędzy każdą parą kombinacji zmiennych, a także wykres gęstości dla każdej indywidualnej zmiennej.
Pełną dokumentację funkcji ggpairs() znajdziesz tutaj .