So berechnen sie z-scores in r


In der Statistik sagt uns ein Z-Score , wie viele Standardabweichungen ein Wert vom Mittelwert hat. Wir verwenden die folgende Formel, um einen Z-Score zu berechnen:

z = (X – μ) / σ

Gold:

  • X ist ein einzelner Rohdatenwert
  • μ ist der Bevölkerungsmittelwert
  • σ ist die Populationsstandardabweichung

In diesem Tutorial wird erklärt, wie Z-Scores für Rohdatenwerte in R berechnet werden.

Beispiel 1: Ermitteln von Z-Scores für einen einzelnen Vektor

Der folgende Code zeigt, wie Sie den Z-Score für jeden Rohdatenwert in einem Vektor ermitteln:

 #create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Jeder Z-Score sagt uns, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert hat. Zum Beispiel:

  • Der erste Rohdatenwert von „6“ liegt 1,323 Standardabweichungen unter dem Mittelwert.
  • Der fünfte Rohdatenwert „13“ beträgt 0 Standardabweichungen vom Mittelwert, ist also gleich dem Mittelwert.
  • Der aktuelle Rohdatenwert von „22“ liegt 1,701 Standardabweichungen über dem Mittelwert.

Beispiel 2: Finden Sie Z-Scores für eine einzelne Spalte in einem DataFrame

Der folgende Code zeigt, wie Sie den Z-Score für jeden Rohdatenwert in einer einzelnen Spalte eines Datenrahmens ermitteln:

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Jeder Z-Score sagt uns, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert hat. Zum Beispiel:

  • Der erste Rohdatenwert von „24“ liegt 0,619 Standardabweichungen über dem Mittelwert.
  • Der zweite Rohdatenwert „29“ liegt 1,464 Standardabweichungen über dem Mittelwert.
  • Der dritte Rohdatenwert „13“ liegt 1,238 Standardabweichungen unter dem Mittelwert.

Und so weiter.

Beispiel 3: Finden Sie Z-Scores für jede Spalte in einem DataFrame

Der folgende Code zeigt, wie Sie mithilfe der Funktion sapply() den Z-Score für jeden Rohdatenwert in jeder Spalte eines Datenrahmens ermitteln.

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

         assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

Die Z-Scores für jeden einzelnen Wert werden relativ zu der Spalte angezeigt, in der sie sich befinden. Zum Beispiel:

  • Der erste Wert von „4“ in der ersten Spalte liegt 0,923 Standardabweichungen unter dem Mittelwert seiner Spalte.
  • Der erste Wert von „24“ in der zweiten Spalte liegt 0,619 Standardabweichungen über dem Mittelwert seiner Spalte.
  • Der erste Wert von „9“ in der dritten Spalte ist 0,904 Standardabweichungen niedriger als der Mittelwert seiner Spalte.

Und so weiter.

Weitere R-Tutorials finden Sie hier .

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert