Een spreidingsdiagrammatrix maken in r (2 voorbeelden)


Een scatterplot-matrix is een scatterplot-matrix waarmee u de paarsgewijze relatie tussen verschillende variabelen in een gegevensset kunt begrijpen.

Er zijn twee veelgebruikte manieren om een spreidingsdiagrammatrix in R te maken:

Methode 1: Gebruik Base R

 #create scatterplot matrix (pch=20 means to use a solid circle for points)
plot(df, pch= 20 )

Methode 2: gebruik ggplot2- en GGally-pakketten

 library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df)

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met het volgende dataframe in R:

 #create data frame
df <- data. frame (points=c(99, 90, 86, 88, 95, 99, 101, 104),
                 assists=c(33, 28, 31, 39, 40, 40, 35, 47),
                 rebounds=c(30, 28, 24, 24, 20, 20, 15, 12))

#view first few rows of data frame
head(df)

  points assists rebounds
1 99 33 30
2 90 28 28
3 86 31 24
4 88 39 24
5 95 40 20
6 99 40 20

Voorbeeld 1: Maak een spreidingsdiagrammatrix met basis R

We kunnen de basis R plot() -functie gebruiken om een scatterplot-matrix te maken voor elke variabele in ons dataframe:

 #create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col=' steelblue ')

scatterplot-matrix in R

De manier om de matrix te interpreteren is als volgt:

  • Variabelenamen worden weergegeven langs de diagonale vakken.
  • Alle andere vakken geven een spreidingsdiagram weer van de relatie tussen elke paarsgewijze combinatie van variabelen. Het vak in de rechterbovenhoek van de matrix geeft bijvoorbeeld een spreidingsdiagram weer met waarden voor punten en rebounds . Het gebied links midden toont een spreidingsdiagram met waarden voor punten en assists enz.

Merk op dat cex de grootte van de punten in het pad bepaalt en col de kleur van de punten.

Voorbeeld 2: Maak een spreidingsdiagrammatrix met ggplot2 en GGally

We kunnen ook de functie ggpairs() uit de pakketten ggplot2 en GGally in R gebruiken om een scatterplot-matrix te maken voor elke variabele in ons dataframe:

 library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df) 

spreidingsdiagrammatrix in ggplot2

Deze scatterplot-matrix bevat dezelfde scatterplots als de R- basisplot()- functie, maar daarnaast kunnen we ook de correlatiecoëfficiënt zien tussen elke paarsgewijze combinatie van variabelen, evenals een dichtheidsplot voor elke individuele variabele.

We kunnen bijvoorbeeld zien:

  • De correlatiecoëfficiënt tussen assists en punten is 0,571 .
  • De correlatiecoëfficiënt tussen rebounds en punten is -0,598 .
  • De correlatiecoëfficiënt tussen rebounds en assists is -0,740 .

De kleine ster ( * ) naast -0,740 geeft ook aan dat de correlatie tussen rebounds en assists statistisch significant is.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:

Hoe maak je een correlatiematrix in R
Hoe puntenwolken per groep te creëren in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert