Wat is geclusterde variantie? (definitie & #038; voorbeeld)
In de statistieken verwijst clustervariantie eenvoudigweg naar het gemiddelde van twee of meer clustervarianties.
We gebruiken het woord ‚gepoold‘ om aan te geven dat we twee of meer groepsvarianties ’samenvoegen‘ om één getal te verkrijgen voor de gemeenschappelijke variantie tussen de groepen.
In de praktijk wordt gepoolde variantie het vaakst gebruikt in een t-test met twee steekproeven , die wordt gebruikt om te bepalen of de gemiddelden van twee populaties al dan niet gelijk zijn.
De gepoolde variantie tussen twee monsters wordt doorgaans sp 2 genoemd en wordt als volgt berekend:
s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
Wanneer de twee steekproefgroottes (n 1 en n 2 ) gelijk zijn, wordt de formule als volgt vereenvoudigd:
s p 2 = (s 1 2 + s 2 2 ) / 2
Wanneer moet u de geclusterde kloof berekenen?
Als we twee populatiegemiddelden willen vergelijken, kunnen we mogelijk twee statistische tests gebruiken:
1. T-test met twee steekproeven : bij deze test wordt ervan uitgegaan dat de varianties tussen de twee steekproeven ongeveer gelijk zijn. Als we deze test gebruiken, berekenen we de gepoolde variantie.
2. Welch’s t-test : Bij deze test wordt er niet van uitgegaan dat de varianties tussen de twee steekproeven ongeveer gelijk zijn. Als we deze test gebruiken, berekenen we de gepoolde variantie niet . In plaats daarvan gebruiken we een andere formule.
Om te bepalen welke test we moeten gebruiken, hanteren we de volgende vuistregel:
Algemene regel: Als de verhouding tussen de grootste variantie en de kleinste variantie kleiner is dan 4, kunnen we aannemen dat de varianties ongeveer gelijk zijn en de t-test met twee steekproeven gebruiken.
Stel bijvoorbeeld dat monster 1 een variantie van 24,5 heeft en monster 2 een variantie van 15,2. De verhouding tussen de grootste steekproefvariantie en de kleinste steekproefvariantie wordt als volgt berekend:
Verhouding: 24,5 / 15,2 = 1,61
Omdat deze verhouding kleiner is dan 4, zou men kunnen aannemen dat de verschillen tussen de twee groepen ongeveer gelijk zijn. We zouden dus de t-test met twee steekproeven gebruiken, wat betekent dat we de gepoolde variantie zouden berekenen.
Voorbeeld van het berekenen van de gegroepeerde afwijking
Stel dat we willen weten of het gemiddelde gewicht van twee verschillende soorten schildpadden gelijk is of niet. Om dit te testen, verzamelen we uit elke populatie een willekeurige steekproef van schildpadden met de volgende informatie:
Voorbeeld 1:
- Steekproefomvang n 1 = 40
- Steekproefvariantie s 1 2 = 18,5
Voorbeeld 2:
- Steekproefomvang n 2 = 38
- Steekproefvariantie s 2 2 = 6,7
Zo berekent u de gepoolde variantie tussen de twee steekproeven:
- s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- s p 2 = ( (40-1)*18,5 + (38-1)*6,7 ) / (40+38-2)
- s p 2 = (39*18,5 + 37*6,7) / (76) = 12,755
De gepoolde variantie bedraagt 12.755 .
Merk op dat de gepoolde variantiewaarde tussen de twee oorspronkelijke varianties van 18,5 en 6,7 ligt. Dit is logisch aangezien de gepoolde variantie slechts een gewogen gemiddelde is van de twee steekproefvarianties.
Bonusbron: gebruik deze gepoolde variantiecalculator om automatisch de gepoolde variantie tussen twee steekproeven te berekenen.