De eenvoudigste manier om samenvattende tabellen te maken in r
De eenvoudigste manier om samenvattende tabellen in R te maken, is door de functies beschrijven() en beschrijvenBy() uit de psych- bibliotheek te gebruiken.
library (psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
De volgende voorbeelden laten zien hoe u deze functies in de praktijk kunt gebruiken.
Voorbeeld 1: Maak een eenvoudige samenvattende tabel
Stel dat we het volgende dataframe in R hebben:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 to 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
We kunnen de functie beschrijven() gebruiken om een samenvattende tabel te maken voor elke variabele in het dataframe:
library (psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
Zo interpreteert u elke waarde in het resultaat:
- vars : kolomnummer
- n : Aantal geldige gevallen
- gemiddelde : de gemiddelde waarde
- mediaan : de mediaanwaarde
- getrimd : het getrimde gemiddelde (standaard wordt aan elk uiteinde 10% van de waarnemingen verwijderd)
- mad : De absolute mediaanafwijking (van de mediaan)
- min : de minimumwaarde
- max : de maximale waarde
- bereik : het bereik van waarden (max – min)
- scheef : asymmetrie
- kurtosis : afvlakking
- se : De standaardfout
Het is belangrijk op te merken dat elke variabele met een asterisk (*) een categorische of logische variabele is die is omgezet in een numerieke variabele met waarden die de numerieke volgorde van de waarden vertegenwoordigen.
In ons voorbeeld is de variabele „team“ omgezet in een numerieke variabele, dus we moeten de bijbehorende samenvattende statistieken niet letterlijk interpreteren.
Houd er ook rekening mee dat u het argument fast=TRUE kunt gebruiken om alleen de meest voorkomende samenvattende statistieken te berekenen:
#create smaller summary table describe(df, fast= TRUE ) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
We kunnen er ook voor kiezen om alleen samenvattende statistieken te berekenen voor bepaalde variabelen in het dataframe:
#create summary table for just 'points' and 'rebounds' columns describe(df[, c(' points ', ' rebounds ')], fast= TRUE ) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
Voorbeeld 2: maak een samenvattende tabel, gegroepeerd op specifieke variabele
De volgende code laat zien hoe u de functie writeBy() gebruikt om een samenvattende tabel voor het dataframe te maken, gegroepeerd op de variabele „team“:
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast= TRUE ) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 -------------------------------------------------- ---------- group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 -------------------------------------------------- ---------- group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
De uitvoer geeft samenvattende statistieken weer voor elk van de drie teams in het dataframe.
Aanvullende bronnen
Hoe de samenvatting van vijf getallen in R te berekenen
Hoe het gemiddelde per groep in R te berekenen
Hoe de som per groep in R te berekenen
Hoe de variantie in R te berekenen
Hoe maak je een covariantiematrix in R