Wat is de onafhankelijkheidsaanname in de statistiek?
Veel statistische tests gaan ervan uit dat waarnemingen onafhankelijk zijn. Dit betekent dat geen enkele waarneming in een dataset met elkaar verband houdt of elkaar op enigerlei wijze beïnvloedt.
Laten we bijvoorbeeld zeggen dat we willen testen of er wel of niet een verschil is in het gemiddelde gewicht tussen twee soorten katten. Als we het gewicht zouden meten van 10 katten van soort A en 10 katten van soort B, zouden we de aanname van onafhankelijkheid schenden als elk van de groepen katten uit hetzelfde nest zou komen.
Het is mogelijk dat de moederkat van soort A gewoon allemaal kittens met een laag gewicht had, terwijl de moederkat van soort B zware kittens had. In dit opzicht zijn de waarnemingen van elk monster niet onafhankelijk van elkaar.
Er zijn drie veel voorkomende soorten statistische tests die deze aanname van onafhankelijkheid maken:
1. T-test met twee steekproeven
In de volgende paragrafen leggen we voor elk type test uit waarom deze aanname wordt gedaan en hoe je kunt bepalen of aan deze aanname wordt voldaan.
Veronderstelling van onafhankelijkheid bij t-toetsen
Een t-test met twee steekproeven wordt gebruikt om te testen of de gemiddelden van twee populaties gelijk zijn of niet.
Aanname: Bij dit type test wordt ervan uitgegaan dat waarnemingen binnen elk monster onafhankelijk van elkaar zijn en dat waarnemingen tussen monsters ook onafhankelijk van elkaar zijn.
Test deze hypothese: De eenvoudigste manier om deze hypothese te testen is door te verifiëren dat elke waarneming slechts één keer in elke steekproef voorkomt en dat de waarnemingen in elke steekproef door middel van willekeurige steekproeven zijn verzameld.
Onafhankelijkheidsaanname in ANOVA
Een ANOVA wordt gebruikt om te bepalen of er al dan niet een significant verschil is tussen de gemiddelden van drie of meer onafhankelijke groepen.
Aanname: Een ANOVA gaat ervan uit dat de waarnemingen in elke groep onafhankelijk van elkaar zijn en dat de waarnemingen binnen de groepen door een willekeurige steekproef zijn verkregen.
Test deze hypothese: Net als bij een t-test is de eenvoudigste manier om deze hypothese te testen, te verifiëren dat elke waarneming slechts één keer in elke steekproef voorkomt en dat de waarnemingen in elke steekproef door middel van willekeurige steekproeven zijn verzameld.
Onafhankelijkheid in veronderstelde regressie
Lineaire regressie wordt gebruikt om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te begrijpen.
Aanname: Bij lineaire regressie wordt ervan uitgegaan dat de residuen van het gepaste model onafhankelijk zijn.
Test deze hypothese: De eenvoudigste manier om deze hypothese te testen is door te kijken naar een tijdreeksdiagram van residuen, een diagram van residuen versus tijd. Idealiter zouden de meeste resterende autocorrelaties binnen de 95%-betrouwbaarheidsbanden rond nul moeten vallen, die ongeveer +/- 2 op de vierkantswortel van n liggen, waarbij n de steekproefomvang is. Je kunt ook formeel testen of aan deze veronderstelling wordt voldaan met behulp van de Durbin-Watson-test .
Gemeenschappelijke bronnen van niet-onafhankelijkheid
Er zijn drie veelvoorkomende bronnen van niet-onafhankelijkheid in datasets:
1. Waarnemingen worden samen in de tijd afgesloten.
Een onderzoeker kan bijvoorbeeld gegevens verzamelen over de gemiddelde snelheid van auto’s op een bepaalde weg. Als hij ervoor kiest om de snelheden ’s avonds te meten, kan het zijn dat de gemiddelde snelheid veel hoger is dan hij had verwacht, simpelweg omdat elke bestuurder zich van zijn werk naar huis haast.
Deze gegevens schenden de veronderstelling dat elke waarneming onafhankelijk is. Omdat elke waarneming op hetzelfde tijdstip van de dag werd waargenomen, is de snelheid van elke auto waarschijnlijk vergelijkbaar.
2. De waarnemingen zijn in de ruimte samengesloten.
Een onderzoeker kan bijvoorbeeld jaarlijkse inkomensgegevens verzamelen van mensen die allemaal in dezelfde wijk met een hoog inkomen wonen, omdat dat handig is.
In dit opzicht hebben alle mensen in de datasteekproef waarschijnlijk een vergelijkbaar inkomen, omdat ze allemaal dicht bij elkaar wonen. Dit is in strijd met de veronderstelling dat elke waarneming onafhankelijk is.
3. Waarnemingen verschijnen meerdere keren in dezelfde dataset.
Het kan bijvoorbeeld nodig zijn dat een onderzoeker gegevens over 50 personen verzamelt, maar besluit in plaats daarvan tweemaal gegevens over 25 personen te verzamelen omdat dat veel gemakkelijker is.
Dit is in strijd met de onafhankelijkheidsaanname omdat elke waarneming in de dataset aan zichzelf gerelateerd zal zijn.
Hoe te voorkomen dat het onafhankelijkheidsbeginsel wordt geschonden
De eenvoudigste manier om te voorkomen dat de onafhankelijkheidsaanname wordt geschonden, is door simpelweg gebruik te maken van eenvoudige willekeurige steekproeven bij het verkrijgen van een steekproef uit een populatie.
Met deze methode heeft elk individu in de populatie van interesse een gelijke kans om in de steekproef te worden opgenomen.
Als onze populatie van interesse bijvoorbeeld 10.000 individuen bevat, kunnen we willekeurig een nummer toewijzen aan elk individu in de populatie en vervolgens een generator voor willekeurige getallen gebruiken om 40 willekeurige getallen te selecteren. Individuen die aan deze cijfers voldoen, worden vervolgens in de steekproef opgenomen.
Door deze methode te gebruiken minimaliseren we de kans dat we twee personen selecteren die heel dicht bij elkaar staan of op de een of andere manier verwant zijn.
Dit staat in direct contrast met andere bemonsteringsmethoden, zoals:
- Convenience sampling: het opnemen van individuen in een steekproef die eenvoudigweg gemakkelijk te bereiken zijn.
- Vrijwillige steekproeftrekking: personen in een steekproef opnemen die zich vrijwillig aanmelden.
Door gebruik te maken van een willekeurige steekproefmethode kunnen we de kans op het schenden van de onafhankelijkheidsaanname minimaliseren.
Aanvullende bronnen
De vier hypothesen geformuleerd in een T-test
De vier aannames van lineaire regressie
De drie hypothesen van ANOVA
Wat is een representatieve steekproef en waarom is deze belangrijk?