O que é análise univariada? (definição e #038; exemplo)
O termo análise univariada refere-se à análise de uma variável. Você pode se lembrar disso porque o prefixo “uni” significa “um”.
O objetivo da análise univariada é compreender a distribuição de valores de uma única variável. Você pode comparar esse tipo de análise com o seguinte:
- Análise bivariada : A análise de duas variáveis.
- Análise multivariada: análise de duas ou mais variáveis.
Por exemplo, suponha que temos o seguinte conjunto de dados:
Poderíamos optar por realizar uma análise univariada em uma das variáveis individuais do conjunto de dados para compreender melhor sua distribuição de valores.
Por exemplo, podemos optar por realizar uma análise univariada sobre a variável Tamanho do agregado familiar :
Existem três maneiras comuns de realizar análises univariadas:
1. Estatísticas resumidas
A maneira mais comum de realizar análises univariadas é descrever uma variável usando estatísticas resumidas .
Existem dois tipos comuns de estatísticas resumidas:
- Medidas de tendência central : Esses números descrevem onde está o centro de um conjunto de dados. Os exemplos incluem média e mediana .
- Medidas de dispersão : Esses números descrevem a distribuição dos valores no conjunto de dados. Os exemplos incluem intervalo , intervalo interquartil , desvio padrão e variância .
2. Distribuições de frequência
Outra forma de realizar análises univariadas é criar uma distribuição de frequência , que descreve com que frequência valores diferentes aparecem em um conjunto de dados.
3. Gráficos
Outra forma de realizar análises univariadas é criar gráficos para visualizar a distribuição dos valores de uma determinada variável.
Exemplos comuns incluem:
- Gráficos de caixa
- Histogramas
- Curvas de densidade
- Camemberts
Os exemplos a seguir mostram como realizar cada tipo de análise univariada usando a variável Tamanho do agregado familiar do nosso conjunto de dados mencionado anteriormente:
Estatísticas resumidas
Podemos calcular as seguintes medidas de tendência central do tamanho do agregado familiar:
- Média (o valor médio): 3,8
- Mediana (o valor médio): 4
Esses valores nos dão uma ideia de onde está o valor “central”.
Também podemos calcular as seguintes medidas de dispersão:
- Faixa (a diferença entre máximo e mínimo): 6
- Escala interquartil (a distribuição dos 50% intermediários dos valores): 2,5
- Desvio padrão (uma medida média de spread): 1,87
Esses valores nos dão uma ideia da distribuição dos valores desta variável.
Distribuição de frequência
Também podemos criar a seguinte tabela de distribuição de frequência para resumir a frequência com que ocorrem valores diferentes:
Isto permite-nos ver rapidamente que o tamanho do agregado familiar mais comum é de 4 pessoas .
Recurso: Você pode usar esta calculadora de frequência para produzir automaticamente uma distribuição de frequência para qualquer variável.
Gráficos
Podemos criar os seguintes gráficos para nos ajudar a visualizar a distribuição dos valores por tamanho do domicílio:
1. Gráfico de caixa
Um boxplot é um gráfico que mostra o resumo de cinco dígitos de um conjunto de dados.
O resumo de cinco números inclui:
- O valor mínimo
- O primeiro quartil
- O valor mediano
- O terceiro quartil
- O valor máximo
Aqui está como seria um boxplot para a variável Tamanho do agregado familiar:
Recurso: Você pode usar este gerador de boxplot para produzir automaticamente um boxplot para qualquer variável.
2. Histograma
Um histograma é um tipo de gráfico que usa barras verticais para exibir frequências. Este tipo de gráfico é uma forma útil de visualizar a distribuição de valores em um conjunto de dados.
Aqui está a aparência de um histograma para a variável Tamanho do agregado familiar:
3. Curva de densidade
Uma curva de densidade é uma curva em um gráfico que representa a distribuição de valores em um conjunto de dados.
É particularmente útil para visualizar a “forma” de uma distribuição, incluindo se uma distribuição tem ou não um ou mais “picos” de valores frequentes e se a distribuição está ou não distorcida para a esquerda ou para a direita .
Esta é a aparência de uma curva de densidade para a variável Tamanho do agregado familiar:
4. Gráfico de pizza
Um gráfico de pizza é um tipo de gráfico em forma de círculo e usa fatias para representar as proporções de um todo.
Aqui está a aparência de um gráfico de pizza para a variável Tamanho do agregado familiar:
Dependendo do tipo de dados, um desses gráficos pode ser mais útil que os outros para visualizar a distribuição dos valores.