Steekproefgemiddelde versus populatiegemiddelde: wat is het verschil?
Vaak willen we in de statistiek vragen beantwoorden als:
- Wat is het gemiddelde huishoudinkomen in een bepaalde stad?
- Wat is het gemiddelde gewicht van een bepaalde schildpadsoort?
- Wat is de gemiddelde opkomst bij universiteitsvoetbalwedstrijden?
In elk scenario willen we een vraag beantwoorden over een populatie , die alle mogelijke individuele elementen vertegenwoordigt die we willen meten.
In plaats van gegevens te verzamelen over elk individu in een populatie, verzamelen we echter gegevens over een steekproef van de populatie, die een deel van de totale populatie vertegenwoordigt.
We willen bijvoorbeeld het gemiddelde gewicht weten van een bepaalde schildpadsoort, die een totale populatie van 800 schildpadden heeft.
Omdat het te lang zou duren om elke schildpad in de populatie te lokaliseren en te wegen, verzamelen we in plaats daarvan een eenvoudige willekeurige steekproef van 30 schildpadden en meten we hun gewicht:
We zouden dan het gemiddelde gewicht van dit monster schildpadden kunnen gebruiken om het gemiddelde gewicht van alle schildpadden in de populatie te schatten.
Hoe het steekproefgemiddelde te berekenen
De formule voor het berekenen van het steekproefgemiddelde, vaak aangeduid met x , is als volgt:
x = Σx ik / n
Goud:
- Σ: Een verfijnd Grieks symbool dat ‘som’ betekent
- x i : De waarde van de i-de waarneming in de gegevensset
- n: De steekproefomvang
Stel dat we bijvoorbeeld een monster van 10 schildpadden verzamelen met de volgende gewichten (in ponden):
- 70, 80, 80, 85, 90, 95, 110, 120, 140, 150
Het steekproefgemiddelde wordt als volgt berekend:
- x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
Waarom het steekproefgemiddelde onbevooroordeeld is
In statistisch jargon zouden we zeggen dat het steekproefgemiddelde een statistiek is, terwijl het populatiegemiddelde een parameter is.
Hier is het verschil tussen de twee termen:
Een statistiek is een getal dat bepaalde kenmerken van een steekproef beschrijft.
Een parameter is een getal dat een kenmerk van een populatie beschrijft.
De parameter is de waarde die we eigenlijk willen meten, maar de statistiek is de waarde die we gebruiken om de waarde van de parameter te schatten, aangezien de statistiek veel gemakkelijker te verkrijgen is.
Wanneer we een methode zoals eenvoudige willekeurige steekproeven gebruiken om een steekproef te verkrijgen, zeggen we dat het steekproefgemiddelde een zuivere schatter is van het populatiegemiddelde.
Met andere woorden: we hebben geen reden om aan te nemen dat het steekproefgemiddelde het werkelijke populatiegemiddelde zou onderschatten of overschatten.
De reden hiervoor is dat wanneer we een methode als een eenvoudige willekeurige steekproef gebruiken, elk lid van de populatie een gelijke kans heeft om in de steekproef te worden opgenomen, wat betekent dat de steekproef waarschijnlijk een ‘miniversie’ van de totale populatie zal zijn. .
We zouden zeggen dat de steekproef representatief is voor de totale populatie , wat betekent dat het steekproefgemiddelde een goede schatting moet zijn van het populatiegemiddelde, ervan uitgaande dat de steekproefomvang groot genoeg is.
Over het gebruik van betrouwbaarheidsintervallen met het steekproefgemiddelde
Hoewel het steekproefgemiddelde een onbevooroordeelde schatting van het populatiegemiddelde oplevert, is het onwaarschijnlijk dat het exact overeenkomt met het populatiegemiddelde.
Als we bijvoorbeeld een steekproef van schildpadden willen gebruiken om het gemiddelde gewicht van een populatie schildpadden te schatten, kunnen we een steekproef kiezen die gevuld is met schildpadden met een laag gewicht, of misschien een steekproef gevuld met zware schildpadden.
Om deze onzekerheid rond onze schatting van het populatiegemiddelde vast te leggen, kunnen we een betrouwbaarheidsinterval creëren.
Een betrouwbaarheidsinterval is een reeks waarden die waarschijnlijk een populatieparameter met een bepaald betrouwbaarheidsniveau bevatten.
We kunnen bijvoorbeeld een monster van 30 schildpadden verzamelen en vaststellen dat het gemiddelde gewicht van dat monster 102 pond is. Als we vervolgens een betrouwbaarheidsinterval van 95% construeren, kunnen we ontdekken dat het interval:
95% betrouwbaarheidsinterval = [98,5, 105,5]
We zouden dit zo interpreteren dat er een kans van 95% is dat het betrouwbaarheidsinterval van [98,5, 105,5] het werkelijke gemiddelde gewicht van de schildpadpopulatie bevat.
Dit betrouwbaarheidsinterval is nuttiger dan het eenvoudige steekproefgemiddelde, omdat het ons een reeks waarden geeft waarbinnen het werkelijke populatiegemiddelde waarschijnlijk zal liggen.
Aanvullende bronnen
Bevolking versus voorbeeld: wat is het verschil?
Statistieken vs. parameters: wat is het verschil?
Een inleiding tot betrouwbaarheidsintervallen