Een uitleg van p-waarden en statistische significantie
In de statistiek worden p-waarden vaak gebruikt bij het testen van hypothesen voor t-toetsen, chikwadraattoetsen, regressieanalyse, ANOVA’s en diverse andere statistische methoden.
Hoewel ze zo vaak voorkomen, interpreteren mensen p-waarden vaak verkeerd, wat tot fouten kan leiden bij het interpreteren van de resultaten van een analyse of onderzoek.
In dit artikel wordt op een duidelijke en praktische manier uitgelegd hoe u p-waarden kunt begrijpen en interpreteren.
Hypothese testen
Om p-waarden te begrijpen, moeten we eerst het concept van het testen van hypothesen begrijpen.
Een testhypothese is een formele statistische test die we gebruiken om een hypothese al dan niet te verwerpen. We kunnen bijvoorbeeld veronderstellen dat een nieuw medicijn, nieuwe methode of procedure bepaalde voordelen heeft ten opzichte van een bestaand medicijn, nieuwe methode of procedure.
Om dit te testen, kunnen we een hypothesetest uitvoeren waarbij we een nul- en alternatieve hypothese gebruiken:
Nulhypothese – Er is geen effect of verschil tussen de nieuwe methode en de oude methode.
Alternatieve hypothese – Er is een effect of verschil tussen de nieuwe methode en de oude methode.
Een p-waarde geeft aan hoe geloofwaardig de nulhypothese is, gegeven de steekproefgegevens. Concreet, ervan uitgaande dat de nulhypothese waar is, vertelt de p-waarde ons de waarschijnlijkheid van het verkrijgen van een effect dat minstens zo groot is als het effect dat we feitelijk in de steekproefgegevens hebben waargenomen.
Als de p-waarde van een hypothesetest laag genoeg is, kunnen we de nulhypothese verwerpen. Concreet moeten we bij het testen van hypothesen vanaf het begin een significantieniveau kiezen. Veel voorkomende keuzes voor significantieniveaus zijn 0,01, 0,05 en 0,10.
Als de p-waarden onder ons significantieniveau liggen, kunnen we de nulhypothese verwerpen.
Anders kunnen we de nulhypothese niet verwerpen als de p-waarde gelijk is aan of groter is dan ons significantieniveau.
Hoe een P-waarde te interpreteren
De klassieke definitie van een p-waarde is:
Een p-waarde is de waarschijnlijkheid dat u een steekproefstatistiek waarneemt die minstens zo extreem is als uw steekproefstatistiek, gegeven het feit dat de nulhypothese waar is.
Stel bijvoorbeeld dat een fabriek beweert banden te produceren met een gemiddeld gewicht van 200 pond. Een auditor veronderstelt dat het werkelijke gemiddelde gewicht van de in deze fabriek geproduceerde banden 200 pond afwijkt. Hij voert dus een hypothesetest uit en ontdekt dat de p-waarde van de test 0,04 is. Zo interpreteert u deze p-waarde:
Als de fabriek daadwerkelijk banden produceert met een gemiddeld gewicht van 200 pond, zal 4% van alle audits het in de steekproef waargenomen effect bereiken, of meer, als gevolg van willekeurige steekproeffouten. Dit vertelt ons dat het verkrijgen van de door de auditor verkregen voorbeeldgegevens vrij zeldzaam zou zijn als de fabriek daadwerkelijk banden zou produceren met een gemiddeld gewicht van 200 pond.
Afhankelijk van het significantieniveau dat bij deze hypothesetest wordt gebruikt, zou de auditor waarschijnlijk de nulhypothese verwerpen dat het werkelijke gemiddelde gewicht van de in deze fabriek geproduceerde banden inderdaad 200 pond bedraagt. De gegevensmonsters die hij tijdens de audit heeft verkregen, komen niet erg overeen met de nulhypothese.
Hoe je een P-waarde niet interpreteert
De grootste misvatting over p-waarden is dat ze gelijk staan aan de waarschijnlijkheid dat er een fout wordt gemaakt door een echte nulhypothese te verwerpen (een zogenaamde Type I-fout).
Er zijn twee belangrijke redenen waarom p-waarden niet kunnen overeenkomen met het foutenpercentage:
1. P-waarden worden berekend op basis van de aanname dat de nulhypothese waar is en dat het verschil tussen de steekproefgegevens en de nulhypothese eenvoudigweg te wijten is aan toeval. P-waarden kunnen u dus niet vertellen hoe waarschijnlijk het is dat de nulwaarde waar of onwaar is, aangezien deze 100% waar is vanuit het perspectief van de berekeningen.
2. Hoewel een lage p-waarde aangeeft dat uw steekproefgegevens onwaarschijnlijk zijn, ervan uitgaande dat nul waar is, kan een p-waarde u nog steeds niet vertellen welke van de volgende gevallen waarschijnlijker is:
- De nul is onwaar
- De nulwaarde is waar, maar je hebt een vreemd monster
Vergeleken met het vorige voorbeeld is hier een correcte en onjuiste manier om de p-waarde te interpreteren:
- Juiste interpretatie: Ervan uitgaande dat de fabriek banden produceert met een gemiddeld gewicht van 200 pond, zou u het waargenomen verschil in uw steekproef krijgen of een extremer verschil in 4% van de audits als gevolg van willekeurige steekproeven.
- Onjuiste interpretatie: Als je de nulhypothese verwerpt, is er een kans van 4% dat je een fout maakt.
Voorbeelden van het interpreteren van P-waarden
De volgende voorbeelden illustreren de juiste manieren om p-waarden te interpreteren in de context van het testen van hypothesen.
voorbeeld 1
Een telefoonmaatschappij beweert dat 90% van haar klanten tevreden is over hun service. Om deze bewering te testen verzamelde een onafhankelijke onderzoeker een eenvoudige willekeurige steekproef van 200 klanten en vroeg hen of ze tevreden waren met hun service, waarop 85% ja zei. De p-waarde die bij dit gegevensmonster hoort, bleek 0,018 te zijn.
Juiste interpretatie van de p-waarde: Ervan uitgaande dat 90% van de klanten daadwerkelijk tevreden is met hun dienstverlening, zou de onderzoeker het waargenomen verschil verkrijgen dat hij in zijn steekproef heeft verkregen of een extremer verschil in 1,8% van de audits als gevolg van een willekeurige steekproef fout. .
Voorbeeld 2
Een bedrijf vindt een nieuwe batterij voor telefoons uit. Het bedrijf beweert dat deze nieuwe batterij minimaal 10 minuten langer meegaat dan de oude batterij. Om deze bewering te testen, neemt een onderzoeker een eenvoudige willekeurige steekproef van 80 nieuwe batterijen en 80 oude batterijen. Nieuwe batterijen gaan gemiddeld 120 minuten mee met een standaardafwijking van 12 minuten en oude batterijen gaan gemiddeld 115 minuten mee met een standaardafwijking van 15 minuten. De p-waarde die voortkomt uit de test voor het verschil in populatiegemiddelden is 0,011.
Juiste interpretatie van de p-waarde: Ervan uitgaande dat de nieuwe batterij even lang of korter werkt dan de oude batterij, zou de onderzoeker het waargenomen verschil of een extremer verschil in 1,1% van de onderzoeken krijgen als gevolg van willekeurige steekproeven.