Qual é a suposição de independência nas estatísticas?


Muitos testes estatísticos assumem que as observações são independentes. Isso significa que nenhuma observação em um conjunto de dados está relacionada entre si ou afeta uma à outra de alguma forma.

Por exemplo, digamos que queremos testar se existe ou não uma diferença no peso médio entre duas espécies de gatos. Se medissemos os pesos de 10 gatos da espécie A e de 10 gatos da espécie B, violaríamos a suposição de independência se cada um dos grupos de gatos viesse da mesma ninhada.

É possível que a mãe gata da Espécie A simplesmente tivesse todos os gatinhos com baixo peso, enquanto a mãe gata da Espécie B tivesse gatinhos pesados. Nesse sentido, as observações de cada amostra não são independentes umas das outras.

Existem três tipos comuns de testes estatísticos que fazem esta suposição de independência:

1. Teste t de duas amostras

2. ANOVA (Análise de Variância)

3. Regressão linear

Nas seções a seguir, explicamos por que essa suposição é feita para cada tipo de teste, bem como como determinar se essa suposição é atendida ou não.

Suposição de independência em testes t

Um teste t de duas amostras é usado para testar se as médias de duas populações são iguais ou não.

Suposição: Este tipo de teste assume que as observações dentro de cada amostra são independentes umas das outras e que as observações entre amostras também são independentes umas das outras.

Teste esta hipótese: A maneira mais simples de testar esta hipótese é verificar se cada observação aparece apenas uma vez em cada amostra e se as observações em cada amostra foram coletadas por amostragem aleatória.

Suposição de independência na ANOVA

Uma ANOVA é usada para determinar se existe ou não uma diferença significativa entre as médias de três ou mais grupos independentes.

Suposição: Uma ANOVA assume que as observações em cada grupo são independentes umas das outras e que as observações dentro dos grupos foram obtidas por uma amostra aleatória.

Teste esta hipótese: Semelhante a um teste t, a maneira mais simples de testar esta hipótese é verificar se cada observação aparece apenas uma vez em cada amostra e se as observações em cada amostra foram coletadas por amostragem aleatória.

Independência na regressão presumida

A regressão linear é usada para compreender a relação entre uma ou mais variáveis preditoras e uma variável de resposta .

Suposição: A regressão linear assume que os resíduos do modelo ajustado são independentes.

Teste esta hipótese: A maneira mais fácil de testar esta hipótese é observar um gráfico de série temporal de resíduos, que é um gráfico de resíduos versus tempo. Idealmente, a maioria das autocorrelações residuais deveria estar dentro das faixas de confiança de 95% em torno de zero, que estão localizadas aproximadamente +/- 2 na raiz quadrada de n , onde n é o tamanho da amostra. Você também pode testar formalmente se essa suposição é atendida usando o teste Durbin-Watson .

Fontes Comuns de Não-Independência

Existem três fontes comuns de não independência em conjuntos de dados:

1. As observações são encerradas juntas no tempo.

Por exemplo, um pesquisador pode coletar dados sobre a velocidade média dos carros em uma determinada estrada. Se ele optar por monitorar as velocidades à noite, poderá descobrir que a velocidade média é muito maior do que esperava, simplesmente porque todos os motoristas estão correndo do trabalho para casa.

Esses dados violam a suposição de que cada observação é independente. Como cada observação foi observada no mesmo horário do dia, a velocidade de cada carro provavelmente será semelhante.

2. As observações são fechadas juntas no espaço.

Por exemplo, um investigador pode recolher dados sobre o rendimento anual de pessoas que vivem no mesmo bairro de rendimento elevado porque é conveniente.

A este respeito, é provável que todas as pessoas incluídas na amostra de dados tenham rendimentos semelhantes, uma vez que todas vivem próximas umas das outras. Isso viola a suposição de que cada observação é independente.

3. As observações aparecem várias vezes no mesmo conjunto de dados.

Por exemplo, um investigador pode necessitar de recolher dados sobre 50 indivíduos, mas em vez disso decide recolher dados sobre 25 indivíduos duas vezes porque é muito mais fácil de fazer.

Isto viola a suposição de independência porque cada observação no conjunto de dados estará relacionada consigo mesma.

Como evitar violar a suposição de independência

A maneira mais simples de evitar a violação da suposição de independência é simplesmente usar uma amostragem aleatória simples ao obter uma amostra de uma população.

Usando este método, cada indivíduo da população de interesse tem chances iguais de ser incluído na amostra.

Por exemplo, se a nossa população de interesse contém 10.000 indivíduos, podemos atribuir aleatoriamente um número a cada indivíduo da população e depois utilizar um gerador de números aleatórios para selecionar 40 números aleatórios. Os indivíduos que correspondessem a esses números seriam então incluídos na amostra.

Ao utilizar este método, minimizamos as chances de selecionar dois indivíduos que possam ser muito próximos um do outro ou que possam estar relacionados de alguma forma.

Isso contrasta diretamente com outros métodos de amostragem, como:

  • Amostragem de conveniência: incluir indivíduos em uma amostra que são simplesmente fáceis de alcançar.
  • Amostragem voluntária: inclusão de indivíduos em uma amostra que se voluntariam para serem incluídos.

Ao utilizar um método de amostragem aleatória, podemos minimizar as chances de violação da suposição de independência.

Recursos adicionais

As quatro hipóteses formuladas em um teste T
As quatro suposições da regressão linear
As três hipóteses da ANOVA
O que é uma amostra representativa e por que é importante?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *