Como calcular um resumo de cinco números em r (com exemplos)


Um resumo de cinco dígitos é uma forma de resumir um conjunto de dados usando os cinco valores a seguir:

  • Mínimo
  • O primeiro quartil
  • A mediana
  • O terceiro quartil
  • O máximo

O resumo de cinco números é útil porque fornece um resumo conciso da distribuição dos dados da seguinte forma:

  • Diz-nos onde está o valor mediano , usando a mediana.
  • Diz-nos a distribuição dos dados, utilizando o primeiro e o terceiro quartis.
  • Diz-nos o intervalo dos dados, usando o mínimo e o máximo.

A maneira mais simples de calcular um resumo de cinco números de um conjunto de dados em R é usar a função fivenum() da base R:

 fivenum(data)

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo 1: Resumo de cinco números de um vetor

O código a seguir mostra como calcular o resumo de cinco números de um vetor numérico em R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Pelo resultado podemos ver:

  • Mínimo: 4
  • O primeiro quartil: 7
  • A mediana: 12
  • O terceiro quartil: 15
  • Máximo: 22

Podemos visualizar rapidamente o resumo de cinco dígitos criando um boxplot:

 boxplot(data)

[1] 4 7 12 15 22 

Veja como interpretar o boxplot:

  • A linha na parte inferior do gráfico representa o valor mínimo ( 4 ).
  • A linha na parte inferior da caixa representa o primeiro quartil ( 7 ).
  • A linha no meio da caixa representa a mediana ( 12 ).
  • A linha no topo da caixa representa o terceiro quartil ( 15 ).
  • A linha no topo do gráfico representa o valor máximo ( 22 ).

Exemplo 2: resumo de cinco dígitos de uma coluna em um quadro de dados

O código a seguir mostra como calcular o resumo de cinco dígitos de uma coluna específica em um quadro de dados:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Exemplo 3: resumo de cinco dígitos de múltiplas colunas

O código a seguir mostra como usar a função sapply() para calcular simultaneamente o resumo de cinco dígitos de múltiplas colunas em um quadro de dados:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Relacionado: Um guia para apply(), lapply(), sapply() e tapply() em R

Recursos adicionais

Como criar tabelas de resumo em R
Como encontrar o intervalo em R
Como remover outliers em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *