Een eenvoudige uitleg over hoe variantie geïnterpreteerd moet worden
In de statistiek willen we vaak begrijpen hoe ‘gespreide’ waarden zich in een dataset bevinden. Om dit te meten gebruiken we vaak de volgende spreidingsmaten:
- Bereik: het verschil tussen de grootste en kleinste waarden in een dataset.
- De interkwartielafstand: het verschil tussen het eerste kwartiel en het derde kwartiel van een dataset (kwartielen zijn simpelweg waarden die een dataset in vier gelijke delen verdelen).
- Standaarddeviatie: een manier om de typische afstand tussen waarden en het gemiddelde te meten.
- Variantie: standaardafwijking in het kwadraat.
Van deze vier maatstaven is variantie intuïtief het moeilijkst te begrijpen. Dit artikel beoogt een eenvoudige verklaring voor de variantie te geven.
Standaarddeviatie begrijpen
Voordat we de variantie kunnen begrijpen, moeten we eerst de standaarddeviatie begrijpen, meestal aangeduid met σ .
De formule voor het berekenen van de standaardafwijking is:
σ = √(Σ (x ik – μ) 2 / N)
waarbij μ het populatiegemiddelde is, xi het i – de element van de populatie is, N de populatiegrootte is, en Σ slechts een mooi symbool is dat „som“ betekent.
In de praktijk zul je zelden de standaarddeviatie met de hand hoeven te berekenen; in plaats daarvan kunt u statistische software of een rekenmachine gebruiken.
Op het meest basale niveau vertelt de standaardafwijking ons de verdeling van gegevenswaarden in een dataset. Om dit te illustreren, beschouwen we de volgende drie datasets samen met de bijbehorende standaarddeviaties:
[5, 5, 5] standaarddeviatie = 0 (helemaal geen spreiding)
[3, 5, 7] standaardafwijking = 1,63 (enkele afwijkingen)
[1, 5, 99] standaardafwijking = 45,28 (veel spreiding)
De term ‘standaardafwijking’ kan worden begrepen door te kijken naar de twee woorden waaruit deze bestaat:
- “afwijking” – dit verwijst naar de afstand tot het gemiddelde.
- “standaard” – dit verwijst naar de “standaard” of “typische” afstand tussen een waarde en het gemiddelde.
Als je de standaarddeviatie eenmaal begrijpt, is het veel gemakkelijker om de variantie te begrijpen.
De kloof begrijpen
De variantie, gewoonlijk aangeduid met σ2 , is eenvoudigweg het kwadraat van de standaardafwijking. De formule voor het vinden van de variantie van een dataset is:
σ 2 = Σ (x ik – μ) 2 / N
waarbij μ het populatiegemiddelde is, xi het i – de element van de populatie is, N de populatiegrootte is, en Σ slechts een mooi symbool is dat „som“ betekent.
Dus als de standaardafwijking van een dataset 8 is, dan zou de variatie 8 2 = 64 zijn.
Of, als de standaardafwijking van een dataset 10 is, dan zou de variatie 10 2 = 100 zijn.
Of, als de standaardafwijking van een dataset 3,7 is, dan zou de variatie 3,7 2 = 13,69 zijn.
Hoe meer verspreid de waarden zich in een dataset bevinden, hoe hoger de variantie. Om dit te illustreren, beschouwen we de volgende drie datasets samen met de bijbehorende varianties:
[5, 5, 5] variantie = 0 (helemaal geen spread)
[3, 5, 7] variantie = 2,67 (enkele afwijkingen)
[1, 5, 99] variantie = 2.050,67 (veel spreiding)
Wanneer zou je variantie gebruiken in plaats van standaarddeviatie?
Na het lezen van de bovenstaande uitleg over standaarddeviatie en variantie, vraagt u zich misschien af wanneer u ooit variantie in plaats van standaarddeviatie zou gebruiken om een dataset te beschrijven.
De standaardafwijking vertelt ons immers de gemiddelde afstand tussen een waarde en het gemiddelde, terwijl de variantie ons het kwadraat van die waarde vertelt. Het lijkt erop dat de standaardafwijking veel gemakkelijker te begrijpen en te interpreteren is.
In werkelijkheid zul je vrijwel altijd de standaarddeviatie gebruiken om de verdeling van waarden in een dataset te beschrijven.
Variantie kan echter nuttig zijn bij het gebruik van een techniek als ANOVA of regressie en bij het proberen de totale variantie van een model te verklaren als gevolg van specifieke factoren.
Misschien wilt u bijvoorbeeld begrijpen hoeveel variantie in testscores kan worden verklaard door IQ en hoeveel variantie kan worden verklaard door bestudeerde uren.
Als 36% van de variatie te wijten is aan IQ en 64% aan uren studie, is dit gemakkelijk te begrijpen. Maar als we standaardafwijkingen van 6 en 8 gebruiken, is dat veel minder intuïtief en heeft het weinig zin in de context van het probleem.
Een ander geval waarin het wellicht beter is om variantie te gebruiken in plaats van standaarddeviatie is wanneer u theoretisch statistisch werk doet.
In dit geval is het veel eenvoudiger om de variantie te gebruiken bij het berekenen, omdat u geen wortelteken hoeft te gebruiken.
Aanvullende bronnen
De volgende tutorials bieden aanvullende informatie over variantie:
Steekproefvariantie en populatievariantie: wat is het verschil?
Hoe u de steekproef- en populatievariantie in Excel kunt berekenen