Hoe u een samenvatting van vijf getallen in r kunt berekenen (met voorbeelden)
Een vijfcijferige samenvatting is een manier om een reeks gegevens samen te vatten met behulp van de volgende vijf waarden:
- Minimum
- Het eerste kwartiel
- De mediaan
- Het derde kwartiel
- Het maximum
De samenvatting met vijf cijfers is nuttig omdat deze als volgt een beknopte samenvatting geeft van de gegevensverdeling:
- Het vertelt ons waar de mediaanwaarde ligt, met behulp van de mediaan.
- Het vertelt ons de verdeling van de gegevens, met behulp van het eerste en derde kwartiel.
- Het vertelt ons het bereik van de gegevens, met behulp van het minimum en het maximum.
De eenvoudigste manier om een samenvatting van vijf cijfers van een gegevensset in R te berekenen, is door de functie fivenum() uit de R-basis te gebruiken:
fivenum(data)
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld 1: Samenvatting van een vector met vijf cijfers
De volgende code laat zien hoe u de vijfcijferige samenvatting van een numerieke vector in R kunt berekenen:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
Uit het resultaat kunnen we zien:
- Minimaal: 4
- Het eerste kwartiel: 7
- De mediaan: 12
- Het derde kwartiel: 15
- Maximaal: 22
We kunnen de vijfcijferige samenvatting snel visualiseren door een boxplot te maken:
boxplot(data) [1] 4 7 12 15 22
Zo interpreteert u de boxplot:
- De lijn onderaan de grafiek vertegenwoordigt de minimumwaarde ( 4 ).
- De lijn onderaan het vak vertegenwoordigt het eerste kwartiel ( 7 ).
- De lijn in het midden van het vak vertegenwoordigt de mediaan ( 12 ).
- De lijn bovenaan het vak vertegenwoordigt het derde kwartiel ( 15 ).
- De lijn bovenaan de grafiek vertegenwoordigt de maximale waarde ( 22 ).
Voorbeeld 2: Vijfcijferige samenvatting van een kolom in een dataframe
De volgende code laat zien hoe u de vijfcijferige samenvatting van een specifieke kolom in een gegevensframe berekent:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Voorbeeld 3: Vijfcijferige samenvatting van meerdere kolommen
De volgende code laat zien hoe u de functie sapply() gebruikt om tegelijkertijd de vijfcijferige samenvatting van meerdere kolommen in een gegevensframe te berekenen:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Gerelateerd: een handleiding voor apply(), lapply(), sapply() en tapply() in R
Aanvullende bronnen
Hoe u samenvattende tabellen maakt in R
Hoe bereik te vinden in R
Hoe uitschieters in R te verwijderen