O que é uma distribuição aberta?
Nas estatísticas, uma distribuição aberta é uma distribuição de frequência na qual uma ou mais classes (ou “caixas”) estão abertas.
Por exemplo, a seguinte distribuição de frequência representa uma distribuição aberta na qual a menor classe é aberta:
E a seguinte distribuição de frequência mostra uma distribuição aberta na qual a maior classe é aberta:
Por outro lado, uma distribuição fechada é aquela em que cada classe da distribuição de frequência tem um limite superior e um limite inferior, como o seguinte:
O que causa distribuições abertas?
As distribuições abertas são muitas vezes o resultado de os investigadores optarem por recolher dados de tal forma que uma das classes acaba por ser aberta.
Por exemplo, suponha que um pesquisador pesquise moradores de uma determinada cidade e pergunte-lhes sobre sua renda familiar anual.
O pesquisador pode optar por dar a resposta mais ampla possível de “> US$ 100.000”, porque sabe que os residentes de alta renda podem não se sentir confortáveis em compartilhar quanto ganham se for significativamente superior a US$ 100.000.
Por outro lado, o investigador pode optar por dar a resposta mais curta possível porque sabe que os residentes que ganham muito pouco também não se sentirão confortáveis em partilhar o pouco que ganham.
Em suma, os pesquisadores muitas vezes incluem cursos abertos em suas pesquisas porque desejam maximizar o número de pessoas que se sentem confortáveis em responder às perguntas da pesquisa.
O problema com distribuições abertas
O problema com distribuições abertas é que os dados reais são censurados . Por outras palavras, podemos saber o número de pessoas que ganham mais de 100.000 dólares numa determinada cidade, mas não sabemos realmente os seus rendimentos anuais exatos.
É possível que algumas pessoas ganhem US$ 150.000, US$ 250.000, US$ 500.000 ou até mais, mas não temos ideia, pois cada uma dessas pessoas não pode indicar que ganham “> US$ 100.000” na investigação.
Como os dados são censurados nas distribuições abertas, também não podemos calcular a média exata e o desvio padrão dos valores no conjunto de dados, uma vez que não temos acesso a todos os valores nos dados brutos.
Como analisar uma distribuição aberta
Como não podemos calcular a média exata de uma distribuição aberta, frequentemente usamos a mediana como medida do “centro” do conjunto de dados.
Lembre-se de que a mediana representa o valor médio do conjunto de dados.
Ao trabalhar com distribuições abertas, podemos usar a seguinte fórmula para encontrar a melhor estimativa da mediana:
Melhor estimativa da mediana: L + ((n/2 – F) / f) * w
Ouro:
- L: O limite inferior do grupo intermediário
- n: O número total de observações
- F: A frequência cumulativa até o grupo intermediário
- f: A frequência do grupo intermediário
- w: A largura do grupo do meio
Por exemplo, suponha que temos a seguinte distribuição aberta:
Há um total de 72 valores no conjunto de dados. Assim, sabemos que o valor mediano estará entre o 36º e o 37º maior valor do conjunto de dados. Cada um desses valores se enquadra na classe “US$ 60.000 – US$ 79.999”, então sabemos que a renda média está nessa faixa.
Nossa melhor estimativa da mediana seria:
Mediana: 60.000 + ((72/2 – 25)/19) * 19.999 = US$ 71.578
Este valor representa a nossa melhor estimativa do rendimento médio anual dos indivíduos neste conjunto de dados.