Como realizar análise exploratória de dados no excel
Uma das primeiras etapas em qualquer projeto de análise de dados é a análise exploratória de dados .
Isso envolve explorar um conjunto de dados de três maneiras:
1. Resuma um conjunto de dados usando estatísticas descritivas.
2. Visualize um conjunto de dados usando gráficos.
3. Identifique os valores ausentes.
Ao realizar essas três ações, você pode entender como os valores em um conjunto de dados são distribuídos e detectar quaisquer valores problemáticos antes de prosseguir com o teste de hipótese , ajustar ummodelo de regressão ou realizar modelagem estatística.
O exemplo passo a passo a seguir mostra como realizar análise exploratória de dados no Excel.
Etapa 1: crie o conjunto de dados
Primeiro, vamos criar um conjunto de dados simples contendo informações sobre 10 jogadores de basquete diferentes:
Este conjunto de dados contém três variáveis (pontos, rebotes, assistências) e algumas variáveis possuem valores vazios ou NA, o que é comum em conjuntos de dados do mundo real.
Etapa 2: resumir os dados
A seguir, podemos calcular os valores médio, mediano, quartil, mínimo e máximo para cada uma das três variáveis neste conjunto de dados:
Aqui está a fórmula que usamos para cada célula na coluna B:
- B13 : =MÉDIA( B2:B11 )
- B14 : =MEDIANA( B2:B11 )
- B15 : =QUARTIL( B2:B11 , 1)
- B16 : =QUARTIL( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MÁX( B2:B11 )
Em seguida, arrastamos cada fórmula para a direita para que pudéssemos calcular as mesmas métricas para os valores nas colunas C e D.
Ao calcular essas estatísticas descritivas para cada variável, podemos obter uma boa compreensão da distribuição dos valores de cada variável.
Nota : Cada fórmula ignora automaticamente os valores em branco ou NA ao calcular cada estatística descritiva.
Etapa 3: visualize os dados
Também podemos criar gráficos para visualizar os valores do conjunto de dados.
Por exemplo, para visualizar a distribuição dos valores da variável Pontos, podemos destacar os valores no intervalo de células B2:B11 , clicar na guia Inserir na faixa superior e clicar no ícone Histograma no grupo Gráficos :
O seguinte histograma será criado automaticamente:
Este histograma permite visualizar a distribuição dos pontos marcados pelos jogadores.
Por exemplo, podemos ver:
- 4 jogadores marcaram entre 10 e 15 pontos.
- 1 jogador marcou entre 15 e 20 pontos.
- 2 jogadores marcaram entre 20 e 25 pontos.
- 3 jogadores marcaram entre 25 e 30 pontos.
Podemos repetir esse processo para cada variável do nosso conjunto de dados para visualizar a distribuição dos valores de cada variável.
Etapa 4: identificar valores ausentes
Também podemos usar a seguinte fórmula para contar o número de valores ausentes na coluna B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Podemos digitar esta fórmula na célula B19 e arrastá-la para a direita para calcular o número de valores ausentes para cada variável no conjunto de dados:
Pelo resultado podemos ver:
- Existem 0 valores ausentes na coluna Pontos.
- Existem 2 valores ausentes na coluna Rebotes.
- Há 1 valor ausente na coluna Ajuda.
Concluímos agora algumas análises exploratórias básicas de dados neste conjunto de dados e obtivemos uma boa compreensão de como os valores são distribuídos para cada variável neste conjunto de dados.
Relacionado: Como substituir células em branco por zero no Excel
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns no Excel:
Como calcular um resumo de cinco números no Excel
Como calcular a média por grupo no Excel
Como calcular o valor máximo por grupo no Excel