O que são considerados dados brutos? (definição e exemplos)
Nas estatísticas, os dados brutos referem-se a dados que foram recolhidos diretamente de uma fonte primária e não foram processados de forma alguma.
Em qualquer tipo de projeto de análise de dados, o primeiro passo é coletar dados brutos. Uma vez coletados esses dados, eles podem ser limpos, transformados, resumidos e visualizados.
A vantagem de coletar dados brutos é eventualmente poder utilizá-los para entender melhor determinados fenômenos ou utilizá-los para construir uma espécie de modelo preditivo.
O exemplo a seguir ilustra como os dados brutos podem ser coletados e usados na vida real.
Exemplo: coleta e uso de dados brutos
O desporto é uma área onde os dados brutos são frequentemente recolhidos. Por exemplo, dados brutos podem ser coletados para diversas estatísticas relativas a jogadores profissionais de basquete.
Etapa 1: coletar dados brutos
Imagine que um olheiro de basquete coleta os seguintes dados brutos de 10 jogadores de um time profissional de basquete:
Este conjunto de dados representa os dados brutos , pois são coletados diretamente pelo olheiro e não foram limpos ou processados de forma alguma.
Etapa 2: limpe os dados brutos
Antes de usar esses dados para criar tabelas de resumo, gráficos ou qualquer outra coisa, o olheiro deve primeiro remover quaisquer valores ausentes e limpar quaisquer valores de dados “sujos”.
Por exemplo, podemos identificar vários valores no conjunto de dados que precisam ser transformados ou removidos:
O olheiro pode decidir remover totalmente a última linha porque ela contém vários valores ausentes. Ele pode então limpar os valores dos caracteres no conjunto de dados para obter os seguintes dados “limpos”:
Etapa 3: resumir os dados
Depois que os dados forem limpos, o olheiro poderá resumir cada variável no conjunto de dados. Por exemplo, poderia calcular as seguintes estatísticas resumidas para a variável “Minutos”:
- Média : 24 minutos
- Mediana : 22 minutos
- Desvio padrão : 9,45 minutos
Etapa 4: visualize os dados
O olheiro pode então visualizar as variáveis no conjunto de dados para entender melhor os valores dos dados.
Por exemplo, ele poderia criar o seguinte gráfico de barras para visualizar o total de minutos jogados por cada jogador:
Ou ele poderia criar o seguinte gráfico de dispersão para visualizar a relação entre os minutos jogados e os pontos marcados:
Cada um desses tipos de gráficos pode ajudá-lo a compreender melhor os dados.
Etapa 5: use dados para construir um modelo
Finalmente, uma vez limpos os dados, o olheiro pode decidir adaptar algum tipo de modelo preditivo.
Por exemplo, ele pode ajustar um modelo de regressão linear simples e usar os minutos jogados para prever o total de pontos marcados por cada jogador.
A equação de regressão ajustada é:
Pontos = 8,7012 + 0,2717*(minutos)
O olheiro poderia então usar esta equação para prever o número de pontos que um jogador marcará com base no número de minutos jogados. Por exemplo, um atleta que joga 30 minutos deverá marcar 16,85 pontos:
Pontos = 8,7012 + 0,2717*(30) = 16,85
Recursos adicionais
Por que as estatísticas são importantes?
Por que o tamanho da amostra é importante nas estatísticas?
O que é uma observação nas estatísticas?
O que são dados tabulares nas estatísticas?