O que são considerados dados brutos? (definição e exemplos)


Nas estatísticas, os dados brutos referem-se a dados que foram recolhidos diretamente de uma fonte primária e não foram processados de forma alguma.

Em qualquer tipo de projeto de análise de dados, o primeiro passo é coletar dados brutos. Uma vez coletados esses dados, eles podem ser limpos, transformados, resumidos e visualizados.

A vantagem de coletar dados brutos é eventualmente poder utilizá-los para entender melhor determinados fenômenos ou utilizá-los para construir uma espécie de modelo preditivo.

O exemplo a seguir ilustra como os dados brutos podem ser coletados e usados na vida real.

Exemplo: coleta e uso de dados brutos

O desporto é uma área onde os dados brutos são frequentemente recolhidos. Por exemplo, dados brutos podem ser coletados para diversas estatísticas relativas a jogadores profissionais de basquete.

Etapa 1: coletar dados brutos

Imagine que um olheiro de basquete coleta os seguintes dados brutos de 10 jogadores de um time profissional de basquete:

Este conjunto de dados representa os dados brutos , pois são coletados diretamente pelo olheiro e não foram limpos ou processados de forma alguma.

Etapa 2: limpe os dados brutos

Antes de usar esses dados para criar tabelas de resumo, gráficos ou qualquer outra coisa, o olheiro deve primeiro remover quaisquer valores ausentes e limpar quaisquer valores de dados “sujos”.

Por exemplo, podemos identificar vários valores no conjunto de dados que precisam ser transformados ou removidos:

O olheiro pode decidir remover totalmente a última linha porque ela contém vários valores ausentes. Ele pode então limpar os valores dos caracteres no conjunto de dados para obter os seguintes dados “limpos”:

Etapa 3: resumir os dados

Depois que os dados forem limpos, o olheiro poderá resumir cada variável no conjunto de dados. Por exemplo, poderia calcular as seguintes estatísticas resumidas para a variável “Minutos”:

  • Média : 24 minutos
  • Mediana : 22 minutos
  • Desvio padrão : 9,45 minutos

Etapa 4: visualize os dados

O olheiro pode então visualizar as variáveis no conjunto de dados para entender melhor os valores dos dados.

Por exemplo, ele poderia criar o seguinte gráfico de barras para visualizar o total de minutos jogados por cada jogador:

Ou ele poderia criar o seguinte gráfico de dispersão para visualizar a relação entre os minutos jogados e os pontos marcados:

Cada um desses tipos de gráficos pode ajudá-lo a compreender melhor os dados.

Etapa 5: use dados para construir um modelo

Finalmente, uma vez limpos os dados, o olheiro pode decidir adaptar algum tipo de modelo preditivo.

Por exemplo, ele pode ajustar um modelo de regressão linear simples e usar os minutos jogados para prever o total de pontos marcados por cada jogador.

A equação de regressão ajustada é:

Pontos = 8,7012 + 0,2717*(minutos)

O olheiro poderia então usar esta equação para prever o número de pontos que um jogador marcará com base no número de minutos jogados. Por exemplo, um atleta que joga 30 minutos deverá marcar 16,85 pontos:

Pontos = 8,7012 + 0,2717*(30) = 16,85

Recursos adicionais

Por que as estatísticas são importantes?
Por que o tamanho da amostra é importante nas estatísticas?
O que é uma observação nas estatísticas?
O que são dados tabulares nas estatísticas?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *