So berechnen sie die deskriptive statistik in r (mit beispiel)

Von Dr. Benjamin Anderson Juli 18, 2023 Führung Keine Kommentare

Beschreibende Statistiken sind Werte, die einen Datensatz beschreiben.

Sie helfen uns zu verstehen, wo sich das Zentrum des Datensatzes befindet und wie die Werte im Datensatz verteilt sind.

Es gibt zwei Funktionen, mit denen wir deskriptive Statistiken in R berechnen können:

Methode 1: Verwenden Sie die Funktion summary()

 summary(my_data)

Die Funktion summary() berechnet die folgenden Werte für jede Variable in einem Datenrahmen in R:

Minimum
1. Quartil
Median
Bedeuten
3. Quartil
Maximal

Methode 2: Verwenden Sie die Funktion sapply()

 sapply(my_data, sd, na. rm = TRUE )

Mit der Funktion sapply() können für jede Variable in einem Datenrahmen andere deskriptive Statistiken als die mit der Funktion summary() berechneten berechnet werden.

Beispielsweise berechnet die obige Funktion sapply() die Standardabweichung jeder Variablen in einem Datenrahmen.

Das folgende Beispiel zeigt, wie diese beiden Funktionen verwendet werden, um deskriptive Statistiken für Variablen in einem Datenrahmen in R zu berechnen.

Beispiel: Berechnung deskriptiver Statistiken in R

Angenommen, wir haben den folgenden Datenrahmen in R, der drei Variablen enthält:

 #create data frame
df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12),
                 y=c(2, 2, 3, 3, 4, 5, 11, 11),
                 z=c(8, 9, 9, 9, 10, 13, 15, 17))

#view data frame
df

   X Y Z
1 1 2 8
2 4 2 9
3 4 3 9
4 5 3 9
5 6 4 10
6 7 5 13
7 10 11 15
8 12 11 17

Mit der Funktion summary() können wir verschiedene deskriptive Statistiken für jede Variable berechnen:

 #calculate descriptive statistics for each variable
summary(df)

       xyz Min. : 1,000 Min. : 2,000 Min. : 8.00  
 1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00  
 Median: 5,500 Median: 3,500 Median: 9.50  
 Mean: 6.125 Mean: 5.125 Mean: 11.25  
 3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50  
 Max. :12,000 Max. :11,000 Max. :17.00

Wir können Klammern auch verwenden, um nur deskriptive Statistiken für bestimmte Variablen im Datenrahmen zu berechnen:

 #calculate descriptive statistics for 'x' and 'z' only
summary(df[, c(' x ', ' z ')])

       xz Min. : 1,000 Min. : 8.00  
 1st Qu.: 4.000 1st Qu.: 9.00  
 Median: 5.500 Median: 9.50  
 Mean: 6.125 Mean: 11.25  
 3rd Qu.: 7.750 3rd Qu.: 13.50  
 Max. :12,000 Max. :17.00

Wir können auch die Funktion sapply() verwenden, um spezifische deskriptive Statistiken für jede Variable zu berechnen.

Der folgende Code zeigt beispielsweise, wie die Standardabweichung jeder Variablen berechnet wird:

 #calculate standard deviation for each variable
sapply(df, sd, na. rm = TRUE )

       X Y Z
3.522884 3.758324 3.327376

Wir können auch eine Funktion() in sapply() verwenden, um deskriptive Statistiken zu berechnen.

Der folgende Code zeigt beispielsweise, wie der Bereich für jede Variable berechnet wird:

 #calculate range for each variable
sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE ))

 X Y Z
11 9 9

Schließlich können wir eine komplexe Funktion erstellen, die deskriptive Statistiken berechnet, und diese Funktion dann mit der Funktion sapply() verwenden.

Der folgende Code zeigt beispielsweise, wie der Modus jeder Variablen im Datenrahmen berechnet wird:

 #define function that calculates mode
find_mode <- function (x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

#calculate mode for each variable
sapply(df, find_mode)

$x
[1] 4

$y
[1] 2 3 11

$z
[1] 9

Aus dem Ergebnis können wir sehen:

Der Modus der Variablen x ist 4 .
Der Modus der y-Variablen ist 2 , 3 und 11 (da jeder dieser Werte am häufigsten vorkommt)
Der Modus der Variablen z ist 9 .

Mit den Funktionen summary() und sapply() können wir für jede Variable in einem Datenrahmen jede gewünschte deskriptive Statistik berechnen.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie Sie andere häufige Aufgaben in R ausführen:

So erstellen Sie Übersichtstabellen in R
So finden Sie den Interquartilbereich in R
So entfernen Sie Ausreißer in R

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel: Berechnung deskriptiver Statistiken in R

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen