Como realizar um teste de independência qui-quadrado em python


Um teste qui-quadrado de independência   é usado para determinar se existe ou não uma associação significativa entre duas variáveis categóricas.

Este tutorial explica como realizar um teste de independência qui-quadrado em Python.

Exemplo: teste de independência qui-quadrado em Python

Suponhamos que queremos saber se o género está ou não associado à preferência por um partido político. Pegamos uma amostra aleatória simples de 500 eleitores e perguntamos-lhes sobre suas preferências partidárias. A tabela a seguir apresenta os resultados da pesquisa:

Republicano Democrata Independente Total
Macho 120 90 40 250
Fêmea 110 95 45 250
Total 230 185 85 500

Use as etapas a seguir para realizar um teste de independência qui-quadrado em Python para determinar se o gênero está associado à preferência partidária.

Etapa 1: crie os dados.

Primeiro, criaremos uma tabela para armazenar nossos dados:

 data = [[120, 90, 40],
        [110, 95, 45]]

Passo 2: Realize o teste qui-quadrado de independência.

A seguir, podemos realizar o teste de independência do qui-quadrado usando a função chi2_contingency da biblioteca SciPy, que utiliza a seguinte sintaxe:

chi2_contingency (observado)

Ouro:

  • observado: uma tabela de contingência de valores observados.

O código a seguir mostra como usar esta função em nosso exemplo específico:

 import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. , 92.5, 42.5],
        [115. , 92.5, 42.5]]))

A forma de interpretar o resultado é a seguinte:

  • Estatística de teste qui-quadrado: 0,864
  • valor p: 0,649
  • Graus de liberdade: 2 (calculado como #rows-1 * #columns-1)
  • Tabela: A última tabela exibe os valores esperados para cada célula da tabela de contingência.

Lembre-se de que o teste qui-quadrado de independência usa as seguintes hipóteses nulas e alternativas:

  • H 0 : (hipótese nula) As duas variáveis são independentes.
  • H 1 : (hipótese alternativa) As duas variáveis não são independentes.

Como o valor p (0,649) do teste não é inferior a 0,05, não rejeitamos a hipótese nula. Isto significa que não temos provas suficientes para afirmar que existe uma associação entre género e preferências partidárias.

Por outras palavras, as preferências de género e de partidos políticos são independentes.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *