De eenvoudigste manier om samenvattende tabellen te maken in r

Von Dr.benjamin anderson Juli 24, 2023 Gids Keine Kommentare

De eenvoudigste manier om samenvattende tabellen in R te maken, is door de functies beschrijven() en beschrijvenBy() uit de psych- bibliotheek te gebruiken.

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

De volgende voorbeelden laten zien hoe u deze functies in de praktijk kunt gebruiken.

Voorbeeld 1: Maak een eenvoudige samenvattende tabel

Stel dat we het volgende dataframe in R hebben:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

We kunnen de functie beschrijven() gebruiken om een samenvattende tabel te maken voor elke variabele in het dataframe:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

Zo interpreteert u elke waarde in het resultaat:

vars : kolomnummer
n : Aantal geldige gevallen
gemiddelde : de gemiddelde waarde
mediaan : de mediaanwaarde
getrimd : het getrimde gemiddelde (standaard wordt aan elk uiteinde 10% van de waarnemingen verwijderd)
mad : De absolute mediaanafwijking (van de mediaan)
min : de minimumwaarde
max : de maximale waarde
bereik : het bereik van waarden (max – min)
scheef : asymmetrie
kurtosis : afvlakking
se : De standaardfout

Het is belangrijk op te merken dat elke variabele met een asterisk (*) een categorische of logische variabele is die is omgezet in een numerieke variabele met waarden die de numerieke volgorde van de waarden vertegenwoordigen.

In ons voorbeeld is de variabele „team“ omgezet in een numerieke variabele, dus we moeten de bijbehorende samenvattende statistieken niet letterlijk interpreteren.

Houd er ook rekening mee dat u het argument fast=TRUE kunt gebruiken om alleen de meest voorkomende samenvattende statistieken te berekenen:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

We kunnen er ook voor kiezen om alleen samenvattende statistieken te berekenen voor bepaalde variabelen in het dataframe:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

Voorbeeld 2: maak een samenvattende tabel, gegroepeerd op specifieke variabele

De volgende code laat zien hoe u de functie writeBy() gebruikt om een samenvattende tabel voor het dataframe te maken, gegroepeerd op de variabele „team“:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

De uitvoer geeft samenvattende statistieken weer voor elk van de drie teams in het dataframe.

Aanvullende bronnen

Hoe de samenvatting van vijf getallen in R te berekenen
Hoe het gemiddelde per groep in R te berekenen
Hoe de som per groep in R te berekenen
Hoe de variantie in R te berekenen
Hoe maak je een covariantiematrix in R

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder

Voorbeeld 1: Maak een eenvoudige samenvattende tabel

Voorbeeld 2: maak een samenvattende tabel, gegroepeerd op specifieke variabele

Aanvullende bronnen

Über den Autor

Dr.benjamin anderson

Einen Kommentar hinzufügen