Come eseguire un test di indipendenza del chi quadrato in python
Un test di indipendenza chi quadrato viene utilizzato per determinare se esiste o meno un’associazione significativa tra due variabili categoriali.
Questo tutorial spiega come eseguire un test di indipendenza del chi quadrato in Python.
Esempio: test di indipendenza del chi-quadrato in Python
Supponiamo di voler sapere se il genere è associato o meno alla preferenza per un partito politico. Prendiamo un semplice campione casuale di 500 elettori e chiediamo loro quale sia la loro preferenza per il partito politico. La tabella seguente presenta i risultati dell’indagine:
Repubblicano | Democratico | Indipendente | Totale | |
Maschio | 120 | 90 | 40 | 250 |
Femmina | 110 | 95 | 45 | 250 |
Totale | 230 | 185 | 85 | 500 |
Utilizzare i passaggi seguenti per eseguire un test di indipendenza del chi quadrato in Python per determinare se il genere è associato alla preferenza del partito politico.
Passaggio 1: creare i dati.
Per prima cosa creeremo una tabella per contenere i nostri dati:
data = [[120, 90, 40], [110, 95, 45]]
Passaggio 2: eseguire il test di indipendenza del chi quadrato.
Successivamente, possiamo eseguire il test di indipendenza del chi-quadrato utilizzando la funzione chi2_contingency della libreria SciPy, che utilizza la seguente sintassi:
chi2_contingenza (osservato)
Oro:
- osservato: una tabella di contingenza dei valori osservati.
Il codice seguente mostra come utilizzare questa funzione nel nostro esempio specifico:
import scipy.stats as stats #perform the Chi-Square Test of Independence stats.chi2_contingency(data) (0.864, 0.649, 2, array([[115. , 92.5, 42.5], [115. , 92.5, 42.5]]))
Il modo di interpretare il risultato è il seguente:
- Statistica del test chi quadrato: 0,864
- Valore p: 0,649
- Gradi di libertà: 2 (calcolati come #righe-1 * #colonne-1)
- Tabella: l’ultima tabella mostra i valori attesi per ciascuna cella nella tabella di contingenza.
Ricordiamo che il test di indipendenza del chi quadrato utilizza le seguenti ipotesi nulle e alternative:
- H 0 : (ipotesi nulla) Le due variabili sono indipendenti.
- H 1 : (ipotesi alternativa) Le due variabili non sono indipendenti.
Poiché il valore p (0,649) del test non è inferiore a 0,05, non riusciamo a rifiutare l’ipotesi nulla. Ciò significa che non abbiamo prove sufficienti per affermare che esista un’associazione tra le preferenze di genere e quelle dei partiti politici.
In altre parole, le preferenze di genere e di partito politico sono indipendenti.