Jak wykonać test niezależności chi-kwadrat w pythonie
Test niezależności chi-kwadrat służy do określenia, czy istnieje istotny związek między dwiema zmiennymi kategorycznymi.
W tym samouczku wyjaśniono, jak wykonać test niezależności chi-kwadrat w Pythonie.
Przykład: test niezależności chi-kwadrat w Pythonie
Załóżmy, że chcemy wiedzieć, czy płeć jest powiązana z preferencją partii politycznej. Bierzemy prostą losową próbę 500 wyborców i pytamy ich o preferencje dotyczące partii politycznych. Wyniki badania prezentuje poniższa tabela:
Republikański | Demokrata | Niezależny | Całkowity | |
Mężczyzna | 120 | 90 | 40 | 250 |
Kobieta | 110 | 95 | 45 | 250 |
Całkowity | 230 | 185 | 85 | 500 |
Wykonaj poniższe kroki, aby przeprowadzić test niezależności chi-kwadrat w języku Python w celu ustalenia, czy płeć jest powiązana z preferencjami partii politycznych.
Krok 1: Utwórz dane.
Najpierw utworzymy tabelę do przechowywania naszych danych:
data = [[120, 90, 40], [110, 95, 45]]
Krok 2: Wykonaj test niezależności chi-kwadrat.
Następnie możemy wykonać test niezależności chi-kwadrat, korzystając z funkcji chi2_contingency z biblioteki SciPy, która wykorzystuje następującą składnię:
chi2_contingency (obserwowane)
Złoto:
- zaobserwowane: tabela kontyngencji zaobserwowanych wartości.
Poniższy kod pokazuje, jak używać tej funkcji w naszym konkretnym przykładzie:
import scipy.stats as stats #perform the Chi-Square Test of Independence stats.chi2_contingency(data) (0.864, 0.649, 2, array([[115. , 92.5, 42.5], [115. , 92.5, 42.5]]))
Sposób interpretacji wyniku jest następujący:
- Statystyka testu chi-kwadrat: 0,864
- wartość p: 0,649
- Stopnie swobody: 2 (obliczane jako #rows-1 * #columns-1)
- Tabela: Ostatnia tabela wyświetla oczekiwane wartości dla każdej komórki w tabeli kontyngencji.
Przypomnijmy, że w teście niezależności chi-kwadrat wykorzystuje się następujące hipotezy zerowe i alternatywne:
- H 0 : (hipoteza zerowa) Te dwie zmienne są niezależne.
- H 1 : (hipoteza alternatywna) Te dwie zmienne nie są niezależne.
Ponieważ wartość p (0,649) testu jest nie mniejsza niż 0,05, nie udaje nam się odrzucić hipotezy zerowej. Oznacza to, że nie mamy wystarczających dowodów, aby stwierdzić, że istnieje związek między płcią a preferencjami partii politycznych.
Innymi słowy, preferencje dotyczące płci i partii politycznych są niezależne.