Voor- en nadelen van het gebruik van standaarddeviatie
De standaardafwijking van een dataset is een manier om de typische afwijking van individuele waarden van de gemiddelde waarde te meten.
De formule voor het berekenen van een steekproefstandaarddeviatie, aangeduid als s , is:
s = √ Σ(x ik – x̄) 2 / (n – 1)
Goud:
- Σ : Een symbool dat “som” betekent
- x i : De i- de waarde in een gegevensset
- x̄ : De steekproefgemiddelden
- n : De steekproefomvang
Er zijn twee belangrijke voordelen aan het gebruik van de standaarddeviatie om de verdeling van waarden in een dataset te beschrijven:
Voordeel #1: Standaarddeviatie gebruikt bij de berekening alle waarnemingen in een dataset. In de statistiek zeggen we over het algemeen dat het een goede zaak is om alle waarnemingen in een dataset te kunnen gebruiken om berekeningen uit te voeren, omdat we alle mogelijke „informatie“ gebruiken die beschikbaar is in de dataset.
Voordeel #2: Standaardafwijking is gemakkelijk te interpreteren . De standaarddeviatie is een enkele waarde die ons een goed idee geeft van hoe ver de “typische” waarneming in een dataset afwijkt van de gemiddelde waarde.
Het gebruik van de standaarddeviatie heeft echter een groot nadeel:
Nadeel 1: Standaarddeviatie kan worden beïnvloed door uitschieters . Wanneer er extreme uitschieters in een dataset aanwezig zijn, kan dit de standaarddeviatiewaarde opblazen en zo een misleidend beeld geven van de verdeling van waarden in een dataset.
De volgende voorbeelden geven meer informatie over de voor- en nadelen van het gebruik van standaarddeviatie.
Voordeel #1: Standaarddeviatie gebruikt alle waarnemingen
Stel dat we de volgende dataset hebben die de verdeling van examenscores voor studenten in een klas laat zien:
Waarderingen: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
We kunnen een rekenmachine of statistische software gebruiken om te ontdekken dat de standaarddeviatie van deze dataset 8,46 is.
Het voordeel van het gebruik van standaarddeviatie in dit voorbeeld is dat we alle mogelijke waarnemingen in de dataset gebruiken om de typische „verdeling“ van waarden te vinden.
We zouden daarentegen een andere metriek kunnen gebruiken, zoals het interkwartielbereik, om de verdeling van waarden in deze dataset te meten.
We kunnen een rekenmachine gebruiken om uit te vinden dat de interkwartielafstand 17,5 is . Dit vertegenwoordigt de kloof tussen de middelste 50% van de waarden in de dataset.
Stel nu dat we de laagste waarde in de dataset veel lager maken:
Waarderingen: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
We kunnen een rekenmachine gebruiken om te bepalen dat de standaarddeviatie van de steekproef 18,37 is .
Het interkwartielbereik is echter nog steeds 17,5 omdat geen van de middelste 50% van de waarden wordt beïnvloed.
Dit laat zien dat de standaarddeviatie van de steekproef bij de berekening rekening houdt met alle waarnemingen in de dataset, in tegenstelling tot andere spreidingsmaten.
Voordeel #2: Standaardafwijking is gemakkelijk te interpreteren
Denk aan de volgende dataset die de verdeling van examenscores voor leerlingen in een klas laat zien:
Waarderingen: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
We gebruikten een rekenmachine om te ontdekken dat de standaarddeviatie van deze dataset 8,46 was.
Dit is eenvoudig te interpreteren omdat het eenvoudigweg betekent dat de afwijking van een “typische” examenscore ongeveer 8,46 bedraagt van de gemiddelde examenscore.
Aan de andere kant zijn andere spreidingsmaatstaven niet zo eenvoudig te interpreteren.
Een variatiecoëfficiënt is bijvoorbeeld een andere spreidingsmaat die de verhouding weergeeft tussen de standaardafwijking en het steekproefgemiddelde.
Variatiecoëfficiënt: s/x̄
In dit voorbeeld is de gemiddelde examenscore 81,46, dus de variatiecoëfficiënt wordt als volgt berekend: 8,46 / 81,46 = 0,104 .
Dit vertegenwoordigt de verhouding tussen de standaarddeviatie van de steekproef en het steekproefgemiddelde, wat handig kan zijn voor het vergelijken van de verdeling van waarden over meerdere datasets, maar het is niet erg eenvoudig om op zichzelf als een metriek te interpreteren.
Nadeel #1: Standaarddeviatie kan worden beïnvloed door uitschieters
Stel dat we de volgende dataset hebben met salarisinformatie voor 10 werknemers (in duizenden dollars) bij een bedrijf:
Salarissen: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
De standaardafwijking van de salarissen in de steekproef bedraagt ongeveer 15,57 .
Stel nu dat we exact dezelfde dataset hebben, maar dat het hoogste salaris veel hoger is:
Salarissen: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
De standaardafwijking van de salarissen in deze dataset bedraagt ongeveer 262,47 .
Door slechts één extreme uitschieter op te nemen wordt de standaarddeviatie sterk beïnvloed en geeft nu een misleidend beeld van de ‘typische’ salarisverdeling.
Opmerking : Wanneer er uitschieters aanwezig zijn in een dataset, kan het interkwartielbereik een betere maatstaf voor de spreiding bieden, omdat deze niet wordt beïnvloed door de uitschieters.
Aanvullende bronnen
De volgende tutorials bieden aanvullende informatie over het gebruik van standaarddeviatie in statistieken:
Interkwartielafstand en standaarddeviatie: het verschil
Variatiecoëfficiënt versus standaardafwijking: het verschil
Bevolking versus Voorbeeldstandaardafwijking: wanneer moet u deze gebruiken?