Come calcolare i punteggi z in r


Nelle statistiche, un punteggio z ci dice quante deviazioni standard un valore è dalla media. Usiamo la seguente formula per calcolare uno z-score:

z = (X – μ) / σ

Oro:

  • X è un singolo valore di dati grezzi
  • μ è la media della popolazione
  • σ è la deviazione standard della popolazione

Questo tutorial spiega come calcolare i punteggi z per i valori dei dati grezzi in R.

Esempio 1: trovare i punteggi Z per un singolo vettore

Il codice seguente mostra come trovare il punteggio z per ciascun valore di dati grezzi in un vettore:

 #create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Ogni punteggio z ci dice quante deviazioni standard un singolo valore è dalla media. Per esempio:

  • Il primo valore dei dati grezzi di “6” è 1.323 deviazioni standard sotto la media.
  • Il quinto valore dei dati grezzi, “13”, è pari a 0 deviazioni standard dalla media, ovvero è uguale alla media.
  • L’ultimo valore dei dati grezzi di “22” è 1.701 deviazioni standard sopra la media.

Esempio 2: trova i punteggi Z per una singola colonna in un DataFrame

Il codice seguente mostra come trovare il punteggio z per ciascun valore di dati grezzi in una singola colonna di un dataframe:

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Ogni punteggio z ci dice quante deviazioni standard un singolo valore è dalla media. Per esempio:

  • Il primo valore dei dati grezzi di “24” è 0,619 deviazioni standard sopra la media.
  • Il secondo valore dei dati grezzi, “29”, è 1.464 deviazioni standard sopra la media.
  • Il terzo valore dei dati grezzi, “13”, è 1.238 deviazioni standard sotto la media.

E così via.

Esempio 3: trova i punteggi Z per ciascuna colonna in un DataFrame

Il codice seguente mostra come trovare il punteggio z per ciascun valore di dati grezzi in ciascuna colonna di un frame di dati utilizzando la funzione sapply() .

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

         assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

I punteggi z per ogni singolo valore vengono visualizzati in relazione alla colonna in cui si trovano. Per esempio:

  • Il primo valore di “4” nella prima colonna è 0,923 deviazioni standard al di sotto del valore medio della sua colonna.
  • Il primo valore di “24” nella seconda colonna è 0,619 deviazioni standard sopra il valore medio della sua colonna.
  • Il primo valore di “9” nella terza colonna è 0,904 deviazioni standard inferiori al valore medio della sua colonna.

E così via.

Puoi trovare altri tutorial su R qui .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *