Een spreidingsdiagrammatrix maken in r (2 voorbeelden)
Een scatterplot-matrix is een scatterplot-matrix waarmee u de paarsgewijze relatie tussen verschillende variabelen in een gegevensset kunt begrijpen.
Er zijn twee veelgebruikte manieren om een spreidingsdiagrammatrix in R te maken:
Methode 1: Gebruik Base R
#create scatterplot matrix (pch=20 means to use a solid circle for points) plot(df, pch= 20 )
Methode 2: gebruik ggplot2- en GGally-pakketten
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met het volgende dataframe in R:
#create data frame df <- data. frame (points=c(99, 90, 86, 88, 95, 99, 101, 104), assists=c(33, 28, 31, 39, 40, 40, 35, 47), rebounds=c(30, 28, 24, 24, 20, 20, 15, 12)) #view first few rows of data frame head(df) points assists rebounds 1 99 33 30 2 90 28 28 3 86 31 24 4 88 39 24 5 95 40 20 6 99 40 20
Voorbeeld 1: Maak een spreidingsdiagrammatrix met basis R
We kunnen de basis R plot() -functie gebruiken om een scatterplot-matrix te maken voor elke variabele in ons dataframe:
#create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col=' steelblue ')
De manier om de matrix te interpreteren is als volgt:
- Variabelenamen worden weergegeven langs de diagonale vakken.
- Alle andere vakken geven een spreidingsdiagram weer van de relatie tussen elke paarsgewijze combinatie van variabelen. Het vak in de rechterbovenhoek van de matrix geeft bijvoorbeeld een spreidingsdiagram weer met waarden voor punten en rebounds . Het gebied links midden toont een spreidingsdiagram met waarden voor punten en assists enz.
Merk op dat cex de grootte van de punten in het pad bepaalt en col de kleur van de punten.
Voorbeeld 2: Maak een spreidingsdiagrammatrix met ggplot2 en GGally
We kunnen ook de functie ggpairs() uit de pakketten ggplot2 en GGally in R gebruiken om een scatterplot-matrix te maken voor elke variabele in ons dataframe:
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
Deze scatterplot-matrix bevat dezelfde scatterplots als de R- basisplot()- functie, maar daarnaast kunnen we ook de correlatiecoëfficiënt zien tussen elke paarsgewijze combinatie van variabelen, evenals een dichtheidsplot voor elke individuele variabele.
We kunnen bijvoorbeeld zien:
- De correlatiecoëfficiënt tussen assists en punten is 0,571 .
- De correlatiecoëfficiënt tussen rebounds en punten is -0,598 .
- De correlatiecoëfficiënt tussen rebounds en assists is -0,740 .
De kleine ster ( * ) naast -0,740 geeft ook aan dat de correlatie tussen rebounds en assists statistisch significant is.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:
Hoe maak je een correlatiematrix in R
Hoe puntenwolken per groep te creëren in R