Como calcular estatísticas descritivas em r (com exemplo)


Estatísticas descritivas são valores que descrevem um conjunto de dados.

Eles nos ajudam a entender onde está o centro do conjunto de dados, bem como a distribuição dos valores no conjunto de dados.

Existem duas funções que podemos usar para calcular estatísticas descritivas em R:

Método 1: use a função summary()

 summary(my_data)

A função summary() calcula os seguintes valores para cada variável em um quadro de dados em R:

  • Mínimo
  • 1º quartil
  • Mediana
  • Significar
  • 3º quartil
  • Máximo

Método 2: use a função sapply()

 sapply(my_data, sd, na. rm = TRUE )

A função sapply() pode ser usada para calcular estatísticas descritivas diferentes daquelas calculadas pela função summary() para cada variável em um quadro de dados.

Por exemplo, a função sapply() acima calcula o desvio padrão de cada variável em um quadro de dados.

O exemplo a seguir mostra como usar essas duas funções para calcular estatísticas descritivas para variáveis em um quadro de dados em R.

Exemplo: cálculo de estatísticas descritivas em R

Suponha que temos o seguinte quadro de dados em R que contém três variáveis:

 #create data frame
df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12),
                 y=c(2, 2, 3, 3, 4, 5, 11, 11),
                 z=c(8, 9, 9, 9, 10, 13, 15, 17))

#view data frame
df

   X Y Z
1 1 2 8
2 4 2 9
3 4 3 9
4 5 3 9
5 6 4 10
6 7 5 13
7 10 11 15
8 12 11 17

Podemos usar a função summary() para calcular várias estatísticas descritivas para cada variável:

 #calculate descriptive statistics for each variable
summary(df)

       xyz Min. : 1,000 Min. : 2,000 Min. : 8.00  
 1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00  
 Median: 5,500 Median: 3,500 Median: 9.50  
 Mean: 6.125 Mean: 5.125 Mean: 11.25  
 3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50  
 Max. :12,000 Max. :11,000 Max. :17.00

Também podemos usar parênteses para calcular apenas estatísticas descritivas para variáveis específicas no quadro de dados:

 #calculate descriptive statistics for 'x' and 'z' only
summary(df[, c(' x ', ' z ')])

       xz Min. : 1,000 Min. : 8.00  
 1st Qu.: 4.000 1st Qu.: 9.00  
 Median: 5.500 Median: 9.50  
 Mean: 6.125 Mean: 11.25  
 3rd Qu.: 7.750 3rd Qu.: 13.50  
 Max. :12,000 Max. :17.00 

Também podemos usar a função sapply() para calcular estatísticas descritivas específicas para cada variável.

Por exemplo, o código a seguir mostra como calcular o desvio padrão de cada variável:

 #calculate standard deviation for each variable
sapply(df, sd, na. rm = TRUE )

       X Y Z
3.522884 3.758324 3.327376

Também podemos usar uma função() em sapply() para calcular estatísticas descritivas.

Por exemplo, o código a seguir mostra como calcular o intervalo de cada variável:

 #calculate range for each variable
sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE ))

 X Y Z
11 9 9

Finalmente, podemos criar uma função complexa que calcula estatísticas descritivas e então usar esta função com a função sapply() .

Por exemplo, o código a seguir mostra como calcular a moda de cada variável no quadro de dados:

 #define function that calculates mode
find_mode <- function (x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

#calculate mode for each variable
sapply(df, find_mode)

$x
[1] 4

$y
[1] 2 3 11

$z
[1] 9

Pelo resultado podemos ver:

  • A moda da variável x é 4 .
  • A moda da variável y é 2 , 3 e 11 (já que cada um desses valores aparece com mais frequência)
  • A moda da variável z é 9 .

Usando as funções summary() e sapply() , podemos calcular quaisquer estatísticas descritivas que desejarmos para cada variável em um quadro de dados.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:

Como criar tabelas de resumo em R
Como encontrar o intervalo interquartil em R
Como remover outliers em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *