So erstellen und interpretieren sie paardiagramme in r
Ein Paardiagramm ist eine Streudiagrammmatrix, die es Ihnen ermöglicht, die paarweise Beziehung zwischen verschiedenen Variablen in einem Datensatz zu verstehen.
Glücklicherweise ist es einfach, mit der Funktion pairs() ein Paardiagramm in R zu erstellen. Dieses Tutorial bietet mehrere Beispiele für die praktische Verwendung dieser Funktion.
Beispiel 1: Paardiagramm aller Variablen
Der folgende Code zeigt, wie man in R ein Basenpaardiagramm für alle Variablen in einem Datenrahmen erstellt:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Die Interpretation der Matrix ist wie folgt:
- Variablennamen werden entlang der diagonalen Kästchen angezeigt.
- Alle anderen Felder zeigen ein Streudiagramm der Beziehung zwischen jeder paarweisen Kombination von Variablen. Der Bereich in der oberen rechten Ecke der Matrix zeigt beispielsweise ein Streudiagramm der Werte für var1 und var3 an. Das mittlere linke Feld zeigt ein Streudiagramm der Werte für var1 und var2 usw. an.
Dieses einzelne Diagramm gibt uns eine Vorstellung von der Beziehung zwischen jedem Variablenpaar in unserem Datensatz. Beispielsweise scheinen var1 und var2 positiv korreliert zu sein, während var1 und var3 nur eine geringe oder keine Korrelation zu haben scheinen.
Beispiel 2: Zeichnen von Paaren spezifischer Variablen
Der folgende Code zeigt, wie ein Basenpaardiagramm nur für die ersten beiden Variablen in einem Datensatz erstellt wird:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Beispiel 3: Ändern Sie die Ästhetik eines Paarplots
Der folgende Code zeigt, wie man die Ästhetik eines Paarplots ändert, einschließlich Titel, Farbe und Beschriftungen:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Beispiel 4: Korrelationen mit ggpairs ermitteln
Sie können den Pearson-Korrelationskoeffizienten zwischen Variablen auch mithilfe der Funktion ggpairs() aus der GGally-Bibliothek ermitteln. Der folgende Code zeigt, wie diese Funktion verwendet wird:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Die Interpretation dieser Matrix ist wie folgt:
- Variablennamen werden an den äußeren Rändern der Matrix angezeigt.
- Kästchen entlang der Diagonalen zeigen das Dichtediagramm für jede Variable an.
- Die Kästchen in der unteren linken Ecke zeigen das Streudiagramm zwischen den einzelnen Variablen an.
- Die Kästchen in der oberen rechten Ecke zeigen den Pearson-Korrelationskoeffizienten zwischen den einzelnen Variablen an. Beispielsweise beträgt die Korrelation zwischen var1 und var2 0,425 .
Der Vorteil der Verwendung von ggpairs() gegenüber der grundlegenden R- pairs()- Funktion besteht darin, dass Sie mehr Informationen über die Variablen erhalten können. Insbesondere können Sie den Korrelationskoeffizienten zwischen jeder paarweisen Kombination von Variablen sowie ein Dichtediagramm für jede einzelne Variable sehen.
Die vollständige Dokumentation zur Funktion ggpairs() finden Sie hier .