Een eenvoudige uitleg van statistisch versus praktisch belang


Een statistische hypothese is een aanname over een populatieparameter . We kunnen bijvoorbeeld aannemen dat de gemiddelde lengte van een man in een bepaalde provincie 68 inch is. De hypothese met betrekking tot lengte is de statistische hypothese en de werkelijke gemiddelde lengte van een man in de Verenigde Staten is de populatieparameter .

Een hypothesetest is een formele statistische test die we gebruiken om een statistische hypothese al dan niet te verwerpen. Om hypothesetoetsen uit te voeren, nemen we een willekeurige steekproef uit de populatie en bepalen we of de gegevens in de steekproef waarschijnlijk hebben plaatsgevonden, gegeven het feit dat de nulhypothese inderdaad waar is.

Als de steekproefgegevens onder deze hypothese voldoende onwaarschijnlijk zijn, kunnen we de nulhypothese verwerpen en concluderen dat er een effect bestaat.

De manier waarop we bepalen of de steekproefgegevens ‘onwaarschijnlijk genoeg’ zijn, ervan uitgaande dat nul waar is, is door een bepaald significantieniveau in te stellen (meestal gekozen op 0,01, 0,05 of 0,10) en vervolgens te controleren of de p-waarde van de hypothesetest kleiner is. dan dit significantieniveau.

Als de p-waarde kleiner is dan het significantieniveau, dan zeggen we dat de resultaten statistisch significant zijn. Het betekent alleen dat er een bepaald effect bestaat, maar het betekent niet noodzakelijkerwijs dat dit effect ook daadwerkelijk praktisch is in de echte wereld. De resultaten kunnen statistisch significant zijn zonder praktisch significant te zijn.

Gerelateerd: Een uitleg van P-waarden en statistische significantie

Praktisch belang

Het is mogelijk dat het testen van hypothesen statistisch significante resultaten oplevert, ondanks een kleine effectgrootte. Er zijn twee belangrijke manieren waarop kleine effectgroottes lage (en daarom statistisch significante) p-waarden kunnen opleveren:

1. De variabiliteit van de bemonsterde gegevens is zeer laag. Als uw steekproefgegevens weinig variabel zijn, kan een hypothesetest nauwkeurigere schattingen van het populatie-effect opleveren, waardoor de test zelfs kleine effecten kan detecteren.

Stel dat we bijvoorbeeld een onafhankelijke t-test met twee steekproeven willen uitvoeren op de volgende twee steekproeven die de testscores van 20 leerlingen van twee verschillende scholen tonen om te bepalen of de gemiddelde testscores significant verschillen tussen de scholen:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

Het gemiddelde van monster 1 is 85,55 en het gemiddelde van monster 2 is 86,40 . Wanneer we een onafhankelijke t-test met twee steekproeven uitvoeren, blijkt dat de teststatistiek -5,3065 is en de overeenkomstige p-waarde <0,0001 . Het verschil tussen de testresultaten is statistisch significant.

Het verschil tussen de gemiddelde testscores voor deze twee steekproeven is slechts 0,85 , maar de lage variabiliteit in testscores voor elke school resulteert in een statistisch significant resultaat. Merk op dat de standaardafwijking van de scores 0,51 is voor steekproef 1 en 0,50 voor steekproef 2.

Deze lage variabiliteit zorgde ervoor dat de hypothesetest het kleine verschil tussen scores kon detecteren en ervoor zorgde dat de verschillen statistisch significant waren.

De onderliggende reden waarom een lage variabiliteit tot statistisch significante conclusies kan leiden, is dat de t- toetsstatistiek voor een onafhankelijke t-toets met twee steekproeven als volgt wordt berekend:

teststatistiek t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

waarbij s 2 1 en s 2 2 de monstervariatie voor respectievelijk monster 1 en monster 2 aangeven. Merk op dat wanneer deze twee getallen klein zijn, de noemer van het gehele getal van de t- teststatistiek klein is.

En als je deelt door een klein getal, krijg je een groot getal. Dit betekent dat de t- teststatistiek groot zal zijn en de overeenkomstige p-waarde klein, wat tot statistisch significante resultaten zal leiden.

2. De steekproefomvang is erg groot. Hoe groter de steekproefomvang, hoe groter de statistische kracht van een hypothesetest, waardoor zelfs kleine effecten kunnen worden gedetecteerd. Dit kan tot statistisch significante resultaten leiden, ondanks kleine effecten die mogelijk geen praktische betekenis hebben.

Stel dat we bijvoorbeeld een onafhankelijke t-test met twee steekproeven willen uitvoeren op de volgende twee steekproeven die de testscores van 20 leerlingen van twee verschillende scholen tonen om te bepalen of de gemiddelde testscores significant verschillen tussen de scholen:

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Als we voor elk voorbeeld een boxplot maken om de verdeling van de scores weer te geven, kunnen we zien dat ze erg op elkaar lijken:

Het gemiddelde van monster 1 is 90,65 en het gemiddelde van monster 2 is 90,75 . De standaardafwijking voor monster 1 is 2,77 en de standaardafwijking voor monster 2 is 2,78 . Wanneer we een onafhankelijke t-test met twee steekproeven uitvoeren, blijkt dat de teststatistiek -0,113 is en de overeenkomstige p-waarde 0,91 . Het verschil tussen de gemiddelde testscores is niet statistisch significant.

Bedenk echter of de steekproefomvang van de twee steekproeven beide 200 was. In dit geval zou een onafhankelijke t-test met twee steekproeven onthullen dat de teststatistiek -1,97 is en de overeenkomstige p-waarde net onder 0,05 ligt. Het verschil tussen de gemiddelde testscores is statistisch significant.

De onderliggende reden waarom grote steekproeven tot statistisch significante conclusies kunnen leiden, gaat opnieuw terug naar de t- toetsstatistiek voor een onafhankelijke t-toets met twee steekproeven:

teststatistiek t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Merk op dat wanneer n 1 en n 2 klein zijn, de gehele noemer van de t -teststatistiek klein is. En als je deelt door een klein getal, krijg je een groot getal. Dit betekent dat de t- teststatistiek groot zal zijn en de overeenkomstige p-waarde klein, wat tot statistisch significante resultaten zal leiden.

Gebruik inhoudelijke expertise om het praktische belang te beoordelen

Om te bepalen of een statistisch significant resultaat van een hypothesetest praktisch betekenisvol is, is vakkennis vaak noodzakelijk.

In de voorgaande voorbeelden, toen we testten op verschillen tussen testscores van twee scholen, zou het nuttig zijn om de expertise te hebben van iemand die op de scholen werkt of die dit soort tests afneemt, om ons te helpen bepalen of een gemiddeld verschil van 1 punt bestaat of niet. heeft praktische implicaties.

Een gemiddeld verschil van 1 punt kan bijvoorbeeld statistisch significant zijn op het alpha = 0,05-niveau, maar betekent dit dat de school met de laagste scores het programma dat de school met de hoogste scores hoger gebruikt, hoger moet adopteren? Of zou het te veel administratieve kosten met zich meebrengen en te duur/te snel te implementeren zijn?

Het feit dat er een statistisch significant verschil is in toetsscores tussen twee scholen betekent niet dat de effectgrootte van het verschil groot genoeg is om enige vorm van verandering in het onderwijssysteem te veroorzaken.

Betrouwbaarheidsintervallen gebruiken om de praktische betekenis te beoordelen

Een ander nuttig instrument om de praktische betekenis te bepalen is het betrouwbaarheidsinterval . Een betrouwbaarheidsinterval geeft ons een bereik van waarden waarbinnen de werkelijke populatieparameter waarschijnlijk zal liggen.

Laten we bijvoorbeeld terugkeren naar het voorbeeld van het vergelijken van het verschil in toetsscores tussen twee scholen. Een directeur kan verklaren dat een gemiddeld scoreverschil van minimaal 5 punten noodzakelijk is om de school een nieuw programma te laten adopteren.

In één onderzoek kunnen we zien dat het gemiddelde verschil tussen testscores 8 punten bedraagt. Het betrouwbaarheidsinterval rond dit gemiddelde kan echter [4, 12] zijn, wat aangeeft dat 4 het werkelijke verschil tussen de gemiddelde testresultaten zou kunnen zijn. In dit geval kan de directeur concluderen dat de school het programma niet zal veranderen, omdat het betrouwbaarheidsinterval aangeeft dat het werkelijke verschil kleiner dan 5 zou kunnen zijn.

In een ander onderzoek kunnen we echter zien dat het gemiddelde verschil tussen testresultaten wederom 8 punten is, maar het betrouwbaarheidsinterval rond het gemiddelde kan [6, 10] zijn. Omdat dit interval geen 5 bevat, zal de regisseur waarschijnlijk concluderen dat het werkelijke verschil tussen de testscores groter is dan 5 en zo vaststellen dat het zinvol is om het programma aan te passen.

Conclusie

Concluderend is dit wat we hebben geleerd:

  • Alleen statistische significantie geeft aan of er sprake is van een effect op basis van een bepaald significantieniveau.
  • Het praktische belang is of dit effect praktische implicaties heeft in de echte wereld.
  • We gebruiken statistische analyses om de statistische significantie te bepalen en domeinexpertise om de praktische betekenis te beoordelen.
  • Kleine effectgroottes kunnen kleine p-waarden opleveren wanneer (1) de variabiliteit van de steekproefgegevens erg klein is en wanneer (2) de steekproefomvang erg groot is.
  • Door een minimale effectgrootte in te stellen voordat we een hypothesetest uitvoeren, kunnen we beter beoordelen of het resultaat van een hypothesetest (zelfs als het statistisch significant is) daadwerkelijk praktisch is in de echte wereld.
  • Betrouwbaarheidsintervallen kunnen nuttig zijn bij het bepalen van de praktische betekenis. Als de minimale effectgrootte niet binnen een betrouwbaarheidsinterval ligt, kunnen de resultaten praktisch significant zijn.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert