So berechnen sie z-scores in r
In der Statistik sagt uns ein Z-Score , wie viele Standardabweichungen ein Wert vom Mittelwert hat. Wir verwenden die folgende Formel, um einen Z-Score zu berechnen:
z = (X – μ) / σ
Gold:
- X ist ein einzelner Rohdatenwert
- μ ist der Bevölkerungsmittelwert
- σ ist die Populationsstandardabweichung
In diesem Tutorial wird erklärt, wie Z-Scores für Rohdatenwerte in R berechnet werden.
Beispiel 1: Ermitteln von Z-Scores für einen einzelnen Vektor
Der folgende Code zeigt, wie Sie den Z-Score für jeden Rohdatenwert in einem Vektor ermitteln:
#create vector of data data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22) #find z-score for each data value z_scores <- (data-mean(data))/sd(data) #display z-scores z_scores [1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000 [7] 0.3779645 0.5669467 1.1338934 1.7008401
Jeder Z-Score sagt uns, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert hat. Zum Beispiel:
- Der erste Rohdatenwert von „6“ liegt 1,323 Standardabweichungen unter dem Mittelwert.
- Der fünfte Rohdatenwert „13“ beträgt 0 Standardabweichungen vom Mittelwert, ist also gleich dem Mittelwert.
- Der aktuelle Rohdatenwert von „22“ liegt 1,701 Standardabweichungen über dem Mittelwert.
Beispiel 2: Finden Sie Z-Scores für eine einzelne Spalte in einem DataFrame
Der folgende Code zeigt, wie Sie den Z-Score für jeden Rohdatenwert in einer einzelnen Spalte eines Datenrahmens ermitteln:
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-score for each data value in the 'points' column z_scores <- (df$points-mean(df$points))/sd(df$points) #display z-scores z_scores [1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502
Jeder Z-Score sagt uns, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert hat. Zum Beispiel:
- Der erste Rohdatenwert von „24“ liegt 0,619 Standardabweichungen über dem Mittelwert.
- Der zweite Rohdatenwert „29“ liegt 1,464 Standardabweichungen über dem Mittelwert.
- Der dritte Rohdatenwert „13“ liegt 1,238 Standardabweichungen unter dem Mittelwert.
Und so weiter.
Beispiel 3: Finden Sie Z-Scores für jede Spalte in einem DataFrame
Der folgende Code zeigt, wie Sie mithilfe der Funktion sapply() den Z-Score für jeden Rohdatenwert in jeder Spalte eines Datenrahmens ermitteln.
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-scores of each column sapply(df, function(df) (df-mean(df))/sd(df)) assists points rebounds [1,] -0.92315712 0.6191904 -0.9035079 [2,] -0.92315712 1.4635409 -0.9035079 [3,] -0.34011052 -1.2383807 -0.4517540 [4,] -0.04858722 -0.9006405 -0.2258770 [5,] 0.53445939 -0.2251601 1.1293849 [6,] 1.70055260 0.2814502 1.3552619
Die Z-Scores für jeden einzelnen Wert werden relativ zu der Spalte angezeigt, in der sie sich befinden. Zum Beispiel:
- Der erste Wert von „4“ in der ersten Spalte liegt 0,923 Standardabweichungen unter dem Mittelwert seiner Spalte.
- Der erste Wert von „24“ in der zweiten Spalte liegt 0,619 Standardabweichungen über dem Mittelwert seiner Spalte.
- Der erste Wert von „9“ in der dritten Spalte ist 0,904 Standardabweichungen niedriger als der Mittelwert seiner Spalte.
Und so weiter.
Weitere R-Tutorials finden Sie hier .