De eenvoudigste manier om samenvattende tabellen te maken in r


De eenvoudigste manier om samenvattende tabellen in R te maken, is door de functies beschrijven() en beschrijvenBy() uit de psych- bibliotheek te gebruiken.

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

De volgende voorbeelden laten zien hoe u deze functies in de praktijk kunt gebruiken.

Voorbeeld 1: Maak een eenvoudige samenvattende tabel

Stel dat we het volgende dataframe in R hebben:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

We kunnen de functie beschrijven() gebruiken om een samenvattende tabel te maken voor elke variabele in het dataframe:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

Zo interpreteert u elke waarde in het resultaat:

  • vars : kolomnummer
  • n : Aantal geldige gevallen
  • gemiddelde : de gemiddelde waarde
  • mediaan : de mediaanwaarde
  • getrimd : het getrimde gemiddelde (standaard wordt aan elk uiteinde 10% van de waarnemingen verwijderd)
  • mad : De absolute mediaanafwijking (van de mediaan)
  • min : de minimumwaarde
  • max : de maximale waarde
  • bereik : het bereik van waarden (max – min)
  • scheef : asymmetrie
  • kurtosis : afvlakking
  • se : De standaardfout

Het is belangrijk op te merken dat elke variabele met een asterisk (*) een categorische of logische variabele is die is omgezet in een numerieke variabele met waarden die de numerieke volgorde van de waarden vertegenwoordigen.

In ons voorbeeld is de variabele „team“ omgezet in een numerieke variabele, dus we moeten de bijbehorende samenvattende statistieken niet letterlijk interpreteren.

Houd er ook rekening mee dat u het argument fast=TRUE kunt gebruiken om alleen de meest voorkomende samenvattende statistieken te berekenen:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

We kunnen er ook voor kiezen om alleen samenvattende statistieken te berekenen voor bepaalde variabelen in het dataframe:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

Voorbeeld 2: maak een samenvattende tabel, gegroepeerd op specifieke variabele

De volgende code laat zien hoe u de functie writeBy() gebruikt om een samenvattende tabel voor het dataframe te maken, gegroepeerd op de variabele „team“:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

De uitvoer geeft samenvattende statistieken weer voor elk van de drie teams in het dataframe.

Aanvullende bronnen

Hoe de samenvatting van vijf getallen in R te berekenen
Hoe het gemiddelde per groep in R te berekenen
Hoe de som per groep in R te berekenen
Hoe de variantie in R te berekenen
Hoe maak je een covariantiematrix in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert