Come eseguire un test di indipendenza del chi quadrato in python


Un test di indipendenza chi quadrato   viene utilizzato per determinare se esiste o meno un’associazione significativa tra due variabili categoriali.

Questo tutorial spiega come eseguire un test di indipendenza del chi quadrato in Python.

Esempio: test di indipendenza del chi-quadrato in Python

Supponiamo di voler sapere se il genere è associato o meno alla preferenza per un partito politico. Prendiamo un semplice campione casuale di 500 elettori e chiediamo loro quale sia la loro preferenza per il partito politico. La tabella seguente presenta i risultati dell’indagine:

Repubblicano Democratico Indipendente Totale
Maschio 120 90 40 250
Femmina 110 95 45 250
Totale 230 185 85 500

Utilizzare i passaggi seguenti per eseguire un test di indipendenza del chi quadrato in Python per determinare se il genere è associato alla preferenza del partito politico.

Passaggio 1: creare i dati.

Per prima cosa creeremo una tabella per contenere i nostri dati:

 data = [[120, 90, 40],
        [110, 95, 45]]

Passaggio 2: eseguire il test di indipendenza del chi quadrato.

Successivamente, possiamo eseguire il test di indipendenza del chi-quadrato utilizzando la funzione chi2_contingency della libreria SciPy, che utilizza la seguente sintassi:

chi2_contingenza (osservato)

Oro:

  • osservato: una tabella di contingenza dei valori osservati.

Il codice seguente mostra come utilizzare questa funzione nel nostro esempio specifico:

 import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. , 92.5, 42.5],
        [115. , 92.5, 42.5]]))

Il modo di interpretare il risultato è il seguente:

  • Statistica del test chi quadrato: 0,864
  • Valore p: 0,649
  • Gradi di libertà: 2 (calcolati come #righe-1 * #colonne-1)
  • Tabella: l’ultima tabella mostra i valori attesi per ciascuna cella nella tabella di contingenza.

Ricordiamo che il test di indipendenza del chi quadrato utilizza le seguenti ipotesi nulle e alternative:

  • H 0 : (ipotesi nulla) Le due variabili sono indipendenti.
  • H 1 : (ipotesi alternativa) Le due variabili non sono indipendenti.

Poiché il valore p (0,649) del test non è inferiore a 0,05, non riusciamo a rifiutare l’ipotesi nulla. Ciò significa che non abbiamo prove sufficienti per affermare che esista un’associazione tra le preferenze di genere e quelle dei partiti politici.

In altre parole, le preferenze di genere e di partito politico sono indipendenti.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *