G test dobroci dopasowania: definicja + przykład
W statystyce test G na dobroć dopasowania służy do określenia, czy zmienna kategoryczna ma rozkład hipotetyczny.
Test ten stanowi alternatywę dla testu dobroci dopasowania chi-kwadrat i jest często używany, gdy w danych występują wartości odstające lub gdy dane, z którymi pracujesz, są bardzo duże.
Test G dobroci dopasowania wykorzystuje następujące hipotezy zerowe i alternatywne:
- H 0 : Zmienna ma hipotetyczny rozkład.
- H A : Zmienna nie ma hipotetycznego rozkładu.
Statystykę testową oblicza się w następujący sposób:
G=2 * Σ[O * ln(O/E)]
Złoto:
- O: Liczba zaobserwowana w komórce
- E: Oczekiwana liczba w komórce
Jeśli wartość p odpowiadająca statystyce testowej jest poniżej pewnego poziomu istotności , wówczas można odrzucić hipotezę zerową i stwierdzić, że badana zmienna nie ma rozkładu zakładanego w hipotezie.
Poniższy przykład pokazuje, jak w praktyce przeprowadzić test dobroci dopasowania G.
Przykład: Test G dobroci dopasowania
Biolog twierdzi, że na pewnym obszarze występuje taka sama proporcja trzech gatunków żółwi. Aby przetestować to twierdzenie, niezależny badacz liczy liczbę każdego rodzaju gatunków i stwierdza, co następuje:
- Gatunek A: 80
- Gatunek B: 125
- Gatunek C: 95
Niezależny badacz może wykonać następujące kroki, aby przeprowadzić test dobroci dopasowania G w celu ustalenia, czy zebrane przez nią dane są zgodne z twierdzeniami biologa.
Krok 1: Podaj hipotezę zerową i alternatywną.
Badacz przeprowadzi test G dobroci dopasowania, stosując następujące założenia:
- H 0 : Na tym obszarze występuje taki sam odsetek trzech gatunków żółwi.
- H A : Na tym obszarze nie występuje taka sama proporcja trzech gatunków żółwi.
Krok 2: Oblicz statystykę testową.
Wzór na obliczenie statystyki testowej jest następujący:
G=2 * Σ[O * ln(O/E)]
W tym przykładzie zaobserwowano ogółem 300 żółwi. Gdyby każdy gatunek był równy, spodziewalibyśmy się obserwacji 100 żółwi z każdego gatunku. Możemy zatem obliczyć statystykę testową w następujący sposób:
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337
Krok 3: Oblicz wartość p statystyki testowej.
Według kalkulatora chi-kwadrat do wartości P , wartość p powiązana ze statystyką testową wynoszącą 10,337 i #categories-1 = 3-1 = 2 stopnie swobody wynosi 0,005693 .
Ponieważ ta wartość p jest mniejsza niż 0,05, badacz odrzuciłby hipotezę zerową. Oznacza to, że ma wystarczające dowody, aby stwierdzić, że na tym konkretnym obszarze nie występuje taka sama proporcja każdego gatunku żółwi.
Bonus: Test G na dobroć dopasowania w R
Możesz użyć funkcji Gtest() z pakietu DescTools, aby szybko przeprowadzić test dobroci dopasowania G w R.
Poniższy kod pokazuje, jak wykonać test G w poprzednim przykładzie:
#load the DescTools library library (DescTools) #perform the G-test GTest(x = c(80, 125, 95), #observed values p = c(1/3, 1/3, 1/3), #expected proportions correct=" none ") Log likelihood ratio (G-test) goodness of fit test data: c(80, 125, 95) G = 10.337, X-squared df = 2, p-value = 0.005693
Należy zauważyć, że statystyka testu G wynosi 10,337 , a odpowiadająca jej wartość p wynosi 0,005693 . Ponieważ ta wartość p jest mniejsza niż 0,05, odrzucilibyśmy hipotezę zerową.
Odpowiada to wynikom, które obliczyliśmy ręcznie.
Dodatkowe zasoby
Możesz skorzystać z tego kalkulatora testu dobroci dopasowania, aby automatycznie wykonać test G dla dowolnego zestawu danych.