G-test van goedheid van pasvorm: definitie + voorbeeld


In de statistiek wordt de G-test voor goodness of fit gebruikt om te bepalen of een categorische variabele al dan niet een hypothetische verdeling volgt.

Deze test is een alternatief voor de chi-kwadraat goodness-of-fit test en wordt vaak gebruikt als er uitschieters in de data voorkomen of als de data waarmee je werkt extreem groot is.

De G-Test of goodness of fit gebruikt de volgende nul- en alternatieve hypothesen:

  • H 0 : Een variabele volgt een hypothetische verdeling.
  • H A : Een variabele volgt geen hypothetische verdeling.

De teststatistiek wordt als volgt berekend:

G=2 * Σ[O * ln(O/E)]

Goud:

  • O: Het getal dat in een cel wordt waargenomen
  • E: Het verwachte getal in een cel

Als de p-waarde die overeenkomt met de teststatistiek onder een bepaald significantieniveau ligt, kun je de nulhypothese verwerpen en concluderen dat de onderzochte variabele niet de veronderstelde verdeling volgt.

Het volgende voorbeeld laat zien hoe u in de praktijk een Goodness-of-Fit G-test kunt uitvoeren.

Voorbeeld: G-test van goedheid van pasvorm

Een bioloog beweert dat er in een bepaald gebied een gelijk aandeel van drie soorten schildpadden bestaat. Om deze bewering te testen, telt een onafhankelijke onderzoeker het aantal van elk soort soort en vindt het volgende:

  • Soort A: 80
  • Soort B: 125
  • Soort C: 95

De onafhankelijke onderzoeker kan via de volgende stappen een goodness-of-fit G-test uitvoeren om vast te stellen of de door haar verzamelde gegevens consistent zijn met de beweringen van de bioloog.

Stap 1: Formuleer de nul- en alternatieve hypothesen.

De onderzoeker zal de G-test van goodness of fit uitvoeren met behulp van de volgende aannames:

  • H 0 : In dit gebied komen evenveel drie soorten schildpadden voor.
  • H A : Een gelijk aantal van drie soorten schildpadden bestaat niet in dit gebied.

Stap 2: Bereken de teststatistiek.

De formule voor het berekenen van de teststatistiek is:

G=2 * Σ[O * ln(O/E)]

In dit voorbeeld zijn er in totaal 300 schildpadden waargenomen. Als er van elke soort een gelijk aandeel zou zijn, zouden we van elke soort 100 schildpadden verwachten. We kunnen de teststatistiek dus als volgt berekenen:

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337

Stap 3: Bereken de p-waarde van de teststatistiek.

Volgens dechikwadraat-naar-p-waardecalculator is de p-waarde die is gekoppeld aan een teststatistiek van 10,337 en #categories-1 = 3-1 = 2 vrijheidsgraden 0,005693 .

Omdat deze p-waarde kleiner is dan 0,05, zou de onderzoeker de nulhypothese verwerpen. Dit betekent dat ze voldoende bewijs heeft om te zeggen dat er in dat specifieke gebied niet een gelijk deel van elke schildpadsoort voorkomt .

Bonus: G-test voor goede pasvorm in R

U kunt de functie Gtest() uit het DescTools-pakket gebruiken om snel een Goodness-of-Fit G-test uit te voeren in R.

De volgende code laat zien hoe u een G-test uitvoert voor het vorige voorbeeld:

 #load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
      p = c(1/3, 1/3, 1/3), #expected proportions
      correct=" none ")

	Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

Merk op dat de G-teststatistiek 10,337 is en dat de overeenkomstige p-waarde 0,005693 is. Omdat deze p-waarde kleiner is dan 0,05, zouden we de nulhypothese verwerpen.

Dit komt overeen met de resultaten die we handmatig hebben berekend.

Aanvullende bronnen

Voel je vrij om deze goodness-of-fit G-testcalculator te gebruiken om automatisch een G-test uit te voeren voor elke dataset.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert