So berechnen sie die deskriptive statistik in r (mit beispiel)
Beschreibende Statistiken sind Werte, die einen Datensatz beschreiben.
Sie helfen uns zu verstehen, wo sich das Zentrum des Datensatzes befindet und wie die Werte im Datensatz verteilt sind.
Es gibt zwei Funktionen, mit denen wir deskriptive Statistiken in R berechnen können:
Methode 1: Verwenden Sie die Funktion summary()
summary(my_data)
Die Funktion summary() berechnet die folgenden Werte für jede Variable in einem Datenrahmen in R:
- Minimum
- 1. Quartil
- Median
- Bedeuten
- 3. Quartil
- Maximal
Methode 2: Verwenden Sie die Funktion sapply()
sapply(my_data, sd, na. rm = TRUE )
Mit der Funktion sapply() können für jede Variable in einem Datenrahmen andere deskriptive Statistiken als die mit der Funktion summary() berechneten berechnet werden.
Beispielsweise berechnet die obige Funktion sapply() die Standardabweichung jeder Variablen in einem Datenrahmen.
Das folgende Beispiel zeigt, wie diese beiden Funktionen verwendet werden, um deskriptive Statistiken für Variablen in einem Datenrahmen in R zu berechnen.
Beispiel: Berechnung deskriptiver Statistiken in R
Angenommen, wir haben den folgenden Datenrahmen in R, der drei Variablen enthält:
#create data frame df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12), y=c(2, 2, 3, 3, 4, 5, 11, 11), z=c(8, 9, 9, 9, 10, 13, 15, 17)) #view data frame df X Y Z 1 1 2 8 2 4 2 9 3 4 3 9 4 5 3 9 5 6 4 10 6 7 5 13 7 10 11 15 8 12 11 17
Mit der Funktion summary() können wir verschiedene deskriptive Statistiken für jede Variable berechnen:
#calculate descriptive statistics for each variable
summary(df)
xyz Min. : 1,000 Min. : 2,000 Min. : 8.00
1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00
Median: 5,500 Median: 3,500 Median: 9.50
Mean: 6.125 Mean: 5.125 Mean: 11.25
3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50
Max. :12,000 Max. :11,000 Max. :17.00
Wir können Klammern auch verwenden, um nur deskriptive Statistiken für bestimmte Variablen im Datenrahmen zu berechnen:
#calculate descriptive statistics for 'x' and 'z' only summary(df[, c(' x ', ' z ')]) xz Min. : 1,000 Min. : 8.00 1st Qu.: 4.000 1st Qu.: 9.00 Median: 5.500 Median: 9.50 Mean: 6.125 Mean: 11.25 3rd Qu.: 7.750 3rd Qu.: 13.50 Max. :12,000 Max. :17.00
Wir können auch die Funktion sapply() verwenden, um spezifische deskriptive Statistiken für jede Variable zu berechnen.
Der folgende Code zeigt beispielsweise, wie die Standardabweichung jeder Variablen berechnet wird:
#calculate standard deviation for each variable sapply(df, sd, na. rm = TRUE ) X Y Z 3.522884 3.758324 3.327376
Wir können auch eine Funktion() in sapply() verwenden, um deskriptive Statistiken zu berechnen.
Der folgende Code zeigt beispielsweise, wie der Bereich für jede Variable berechnet wird:
#calculate range for each variable sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE )) X Y Z 11 9 9
Schließlich können wir eine komplexe Funktion erstellen, die deskriptive Statistiken berechnet, und diese Funktion dann mit der Funktion sapply() verwenden.
Der folgende Code zeigt beispielsweise, wie der Modus jeder Variablen im Datenrahmen berechnet wird:
#define function that calculates mode find_mode <- function (x) { u <- unique(x) tab <- tabulate(match(x, u)) u[tab == max(tab)] } #calculate mode for each variable sapply(df, find_mode) $x [1] 4 $y [1] 2 3 11 $z [1] 9
Aus dem Ergebnis können wir sehen:
- Der Modus der Variablen x ist 4 .
- Der Modus der y-Variablen ist 2 , 3 und 11 (da jeder dieser Werte am häufigsten vorkommt)
- Der Modus der Variablen z ist 9 .
Mit den Funktionen summary() und sapply() können wir für jede Variable in einem Datenrahmen jede gewünschte deskriptive Statistik berechnen.
Zusätzliche Ressourcen
Die folgenden Tutorials erklären, wie Sie andere häufige Aufgaben in R ausführen:
So erstellen Sie Übersichtstabellen in R
So finden Sie den Interquartilbereich in R
So entfernen Sie Ausreißer in R