Hoe u een samenvatting van vijf getallen in r kunt berekenen (met voorbeelden)


Een vijfcijferige samenvatting is een manier om een reeks gegevens samen te vatten met behulp van de volgende vijf waarden:

  • Minimum
  • Het eerste kwartiel
  • De mediaan
  • Het derde kwartiel
  • Het maximum

De samenvatting met vijf cijfers is nuttig omdat deze als volgt een beknopte samenvatting geeft van de gegevensverdeling:

  • Het vertelt ons waar de mediaanwaarde ligt, met behulp van de mediaan.
  • Het vertelt ons de verdeling van de gegevens, met behulp van het eerste en derde kwartiel.
  • Het vertelt ons het bereik van de gegevens, met behulp van het minimum en het maximum.

De eenvoudigste manier om een samenvatting van vijf cijfers van een gegevensset in R te berekenen, is door de functie fivenum() uit de R-basis te gebruiken:

 fivenum(data)

Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld 1: Samenvatting van een vector met vijf cijfers

De volgende code laat zien hoe u de vijfcijferige samenvatting van een numerieke vector in R kunt berekenen:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Uit het resultaat kunnen we zien:

  • Minimaal: 4
  • Het eerste kwartiel: 7
  • De mediaan: 12
  • Het derde kwartiel: 15
  • Maximaal: 22

We kunnen de vijfcijferige samenvatting snel visualiseren door een boxplot te maken:

 boxplot(data)

[1] 4 7 12 15 22 

Zo interpreteert u de boxplot:

  • De lijn onderaan de grafiek vertegenwoordigt de minimumwaarde ( 4 ).
  • De lijn onderaan het vak vertegenwoordigt het eerste kwartiel ( 7 ).
  • De lijn in het midden van het vak vertegenwoordigt de mediaan ( 12 ).
  • De lijn bovenaan het vak vertegenwoordigt het derde kwartiel ( 15 ).
  • De lijn bovenaan de grafiek vertegenwoordigt de maximale waarde ( 22 ).

Voorbeeld 2: Vijfcijferige samenvatting van een kolom in een dataframe

De volgende code laat zien hoe u de vijfcijferige samenvatting van een specifieke kolom in een gegevensframe berekent:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Voorbeeld 3: Vijfcijferige samenvatting van meerdere kolommen

De volgende code laat zien hoe u de functie sapply() gebruikt om tegelijkertijd de vijfcijferige samenvatting van meerdere kolommen in een gegevensframe te berekenen:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Gerelateerd: een handleiding voor apply(), lapply(), sapply() en tapply() in R

Aanvullende bronnen

Hoe u samenvattende tabellen maakt in R
Hoe bereik te vinden in R
Hoe uitschieters in R te verwijderen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert