Hoe paarplots in r te maken en te interpreteren


Een paarplot is een spreidingsdiagrammatrix waarmee u de paarsgewijze relatie tussen verschillende variabelen in een gegevensset kunt begrijpen.

Gelukkig is het eenvoudig om een parenplot in R te maken met behulp van de functie pairs() . Deze tutorial biedt verschillende voorbeelden van praktisch gebruik van deze functie.

Voorbeeld 1: Paarplot van alle variabelen

De volgende code laat zien hoe u een basenpaarplot maakt voor alle variabelen in een dataframe in R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

De manier om de matrix te interpreteren is als volgt:

  • Variabelenamen worden weergegeven langs de diagonale vakken.
  • Alle andere vakken geven een spreidingsdiagram weer van de relatie tussen elke paarsgewijze combinatie van variabelen. Het gebied in de rechterbovenhoek van de matrix geeft bijvoorbeeld een spreidingsdiagram met waarden voor var1 en var3 weer. Het vak links midden toont een spreidingsdiagram met waarden voor var1 en var2 , enzovoort.

Deze enkele grafiek geeft ons een idee van de relatie tussen elk paar variabelen in onze dataset. Var1 en var2 lijken bijvoorbeeld positief gecorreleerd te zijn, terwijl var1 en var3 weinig of geen correlatie lijken te hebben.

Voorbeeld 2: Paren van specifieke variabelen plotten

De volgende code laat zien hoe u een basenpaarplot maakt voor alleen de eerste twee variabelen in een gegevensset:

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

Specifieke variabelenparen plotten in R

Voorbeeld 3: Verander de esthetiek van een parenplot

De volgende code laat zien hoe u de esthetiek van een parenplot kunt wijzigen, inclusief de titel, kleur en labels:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

Aangepaste paren plotten in R

Voorbeeld 4: Verkrijgen van correlaties met ggpairs

U kunt ook de Pearson-correlatiecoëfficiënt tussen variabelen verkrijgen met behulp van de functie ggpairs() uit de GGally-bibliotheek. De volgende code laat zien hoe u deze functie kunt gebruiken:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

ggpairs functioneren in het R-voorbeeld

De manier om deze matrix te interpreteren is als volgt:

  • Variabelenamen worden weergegeven aan de buitenranden van de matrix.
  • Kaders langs de diagonalen geven de dichtheidsplot voor elke variabele weer.
  • De vakken in de linkerbenedenhoek geven het spreidingsdiagram tussen elke variabele weer.
  • De vakjes in de rechterbovenhoek geven de Pearson-correlatiecoëfficiënt tussen elke variabele weer. De correlatie tussen var1 en var2 is bijvoorbeeld 0,425 .

Het voordeel van het gebruik van ggpairs() ten opzichte van de basisfunctie R pairs() is dat u meer informatie over de variabelen kunt krijgen. Concreet kunt u de correlatiecoëfficiënt zien tussen elke paarsgewijze combinatie van variabelen, evenals een dichtheidsplot voor elke individuele variabele.

De volledige documentatie voor de functie ggpairs() vindt u hier .

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert