Como calcular pontuações z em r


Nas estatísticas, uma pontuação z nos diz quantos desvios padrão um valor está da média. Usamos a seguinte fórmula para calcular uma pontuação z:

z = (X – μ) / σ

Ouro:

  • X é um único valor de dados brutos
  • μ é a média da população
  • σ é o desvio padrão da população

Este tutorial explica como calcular pontuações z para valores de dados brutos em R.

Exemplo 1: Encontrando pontuações Z para um único vetor

O código a seguir mostra como encontrar a pontuação z para cada valor de dados brutos em um vetor:

 #create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Cada pontuação z nos diz quantos desvios padrão um valor individual está da média. Por exemplo:

  • O primeiro valor dos dados brutos de “6” está 1,323 desvios padrão abaixo da média.
  • O quinto valor dos dados brutos, “13”, é 0 desvio padrão da média, ou seja, é igual à média.
  • O último valor dos dados brutos de “22” está 1.701 desvios padrão acima da média.

Exemplo 2: Encontre pontuações Z para uma única coluna em um DataFrame

O código a seguir mostra como encontrar a pontuação z para cada valor de dados brutos em uma única coluna de um dataframe:

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Cada pontuação z nos diz quantos desvios padrão um valor individual está da média. Por exemplo:

  • O primeiro valor dos dados brutos de “24” está 0,619 desvios padrão acima da média.
  • O segundo valor dos dados brutos, “29”, está 1,464 desvios padrão acima da média.
  • O terceiro valor dos dados brutos, “13”, está 1,238 desvios padrão abaixo da média.

E assim por diante.

Exemplo 3: Encontre pontuações Z para cada coluna em um DataFrame

O código a seguir mostra como encontrar a pontuação z para cada valor de dados brutos em cada coluna de um quadro de dados usando a função sapply() .

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

         assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

As pontuações z para cada valor individual são exibidas em relação à coluna em que estão localizadas. Por exemplo:

  • O primeiro valor de “4” na primeira coluna é 0,923 desvios padrão abaixo do valor médio da sua coluna.
  • O primeiro valor de “24” na segunda coluna é 0,619 desvios padrão acima do valor médio da sua coluna.
  • O primeiro valor de “9” na terceira coluna é 0,904 desvios padrão inferior ao valor médio da sua coluna.

E assim por diante.

Você pode encontrar mais tutoriais de R aqui .

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *