Como realizar um teste de independência qui-quadrado em python
Um teste qui-quadrado de independência é usado para determinar se existe ou não uma associação significativa entre duas variáveis categóricas.
Este tutorial explica como realizar um teste de independência qui-quadrado em Python.
Exemplo: teste de independência qui-quadrado em Python
Suponhamos que queremos saber se o género está ou não associado à preferência por um partido político. Pegamos uma amostra aleatória simples de 500 eleitores e perguntamos-lhes sobre suas preferências partidárias. A tabela a seguir apresenta os resultados da pesquisa:
Republicano | Democrata | Independente | Total | |
Macho | 120 | 90 | 40 | 250 |
Fêmea | 110 | 95 | 45 | 250 |
Total | 230 | 185 | 85 | 500 |
Use as etapas a seguir para realizar um teste de independência qui-quadrado em Python para determinar se o gênero está associado à preferência partidária.
Etapa 1: crie os dados.
Primeiro, criaremos uma tabela para armazenar nossos dados:
data = [[120, 90, 40], [110, 95, 45]]
Passo 2: Realize o teste qui-quadrado de independência.
A seguir, podemos realizar o teste de independência do qui-quadrado usando a função chi2_contingency da biblioteca SciPy, que utiliza a seguinte sintaxe:
chi2_contingency (observado)
Ouro:
- observado: uma tabela de contingência de valores observados.
O código a seguir mostra como usar esta função em nosso exemplo específico:
import scipy.stats as stats #perform the Chi-Square Test of Independence stats.chi2_contingency(data) (0.864, 0.649, 2, array([[115. , 92.5, 42.5], [115. , 92.5, 42.5]]))
A forma de interpretar o resultado é a seguinte:
- Estatística de teste qui-quadrado: 0,864
- valor p: 0,649
- Graus de liberdade: 2 (calculado como #rows-1 * #columns-1)
- Tabela: A última tabela exibe os valores esperados para cada célula da tabela de contingência.
Lembre-se de que o teste qui-quadrado de independência usa as seguintes hipóteses nulas e alternativas:
- H 0 : (hipótese nula) As duas variáveis são independentes.
- H 1 : (hipótese alternativa) As duas variáveis não são independentes.
Como o valor p (0,649) do teste não é inferior a 0,05, não rejeitamos a hipótese nula. Isto significa que não temos provas suficientes para afirmar que existe uma associação entre género e preferências partidárias.
Por outras palavras, as preferências de género e de partidos políticos são independentes.