Bemonstering met vervanging of zonder vervanging
Vaak willen we in de statistiek data verzamelen zodat we bepaalde onderzoeksvragen kunnen beantwoorden.
We willen bijvoorbeeld de volgende vragen beantwoorden:
1. Wat is het gemiddelde gezinsinkomen in Cincinnati, Ohio?
2. Wat is het gemiddelde gewicht van een bepaalde populatie schildpadden?
3. Welk percentage inwoners in een bepaalde provincie steunt een bepaalde wet?
In elk scenario willen we een vraag beantwoorden over een populatie , die alle mogelijke individuele elementen vertegenwoordigt die we willen meten.
In plaats van gegevens te verzamelen over elk individu in een populatie, verzamelen we echter doorgaans alleen gegevens over een steekproef van de populatie, die een deel van de populatie vertegenwoordigt.
Er zijn twee verschillende manieren om monsters te verzamelen: bemonstering met vervanging en bemonstering zonder vervanging .
In deze tutorial wordt het verschil tussen de twee methoden uitgelegd, samen met voorbeelden van hoe u ze in de praktijk kunt gebruiken.
Bemonstering met vervanging
Stel dat we de namen van 5 studenten in een hoed hebben:
- Andy
- Karel
- Tyler
- Becca
- Jessica
Stel dat we een steekproef willen nemen van 2 studenten met vervanging.
In de eerste tekening kunnen we Tylers naam selecteren. Dan stopten we zijn naam weer in de hoed en tekenden we opnieuw. In de tweede tekening zouden we Tylers naam opnieuw kunnen selecteren. Ons voorbeeld zou dus zijn: {Tyler, Tyler}
Dit is een voorbeeld van het verkrijgen van een monster met vervanging, omdat we na elke tekening de door ons gekozen naam vervangen.
Wanneer we bemonsteren met vervanging, zijn de monsterelementen onafhankelijk omdat de uitkomst van de ene toss niet wordt beïnvloed door de vorige toss.
De kans dat u de naam Tyler kiest, is bijvoorbeeld 1/5 bij de eerste trekking en opnieuw 1/5 bij de tweede trekking. De uitkomst van de eerste trekking heeft geen invloed op de waarschijnlijkheid van de uitkomst van de tweede trekking.
Bemonstering met vervanging wordt in veel verschillende scenario’s in de statistiek en machine learning gebruikt, waaronder:
- Aanzuigen
- Opzakken
- Een eenvoudige introductie tot het stimuleren van machine learning
- Een eenvoudige introductie tot willekeurige bossen
Bij elk van deze methoden wordt gebruik gemaakt van steekproeven met vervanging, omdat we hierdoor dezelfde dataset meerdere keren kunnen gebruiken om modellen te bouwen, in plaats van nieuwe gegevens te verzamelen, wat tijdrovend en duur kan zijn.
Bemonstering zonder vervanging
Stel opnieuw dat we de namen van 5 studenten in een hoed hebben:
- Andy
- Karel
- Tyler
- Becca
- Jessica
Stel dat we een steekproef willen nemen van 2 studenten zonder vervanging.
In de eerste tekening kunnen we Tylers naam selecteren. Zijn naam zouden we dan terzijde laten. In de tweede tekening konden we de naam Andy selecteren. Ons voorbeeld zou dus zijn: {Tyler, Andy}
Dit is een voorbeeld van het verkrijgen van een monster zonder vervanging, omdat we de naam die we kiezen niet na elke tekening vervangen.
Wanneer we bemonsteren zonder vervanging, zijn de monsterelementen afhankelijk omdat de uitkomst van de ene toss wordt beïnvloed door de vorige toss.
De kans dat je de naam Tyler kiest is bijvoorbeeld 1/5 in de eerste trekking en de kans dat je de naam Andy kiest is 1/4 in de tweede trekking. De uitkomst van de eerste trekking heeft invloed op de waarschijnlijkheid van de uitkomst van de tweede trekking.
Steekproefneming zonder vervanging is de methode die we gebruiken als we een willekeurige steekproef uit een populatie willen selecteren.
Als we bijvoorbeeld het gemiddelde gezinsinkomen in Cincinnati, Ohio willen schatten, kunnen er in totaal 500.000 verschillende huishoudens zijn.
We willen dus misschien een willekeurige steekproef van 2.000 huishoudens verzamelen, maar we willen niet dat de gegevens van een bepaald huishouden twee keer in de steekproef voorkomen, dus we zouden een steekproef nemen zonder vervanging.
Met andere woorden: als we eenmaal een bepaald huishouden hebben gekozen om in de steekproef op te nemen, willen we geen enkele kans meer hebben om dat huishouden opnieuw te selecteren voor opname.