Hoe asymmetrie in boxplots te identificeren
Een boxplot is een type plot dat de vijfcijferige samenvatting van een dataset weergeeft, waaronder:
- De minimumwaarde
- Het eerste kwartiel (het 25e percentiel)
- De gemiddelde waarde
- Het derde kwartiel (het 75e percentiel)
- De maximale waarde
Om een boxplot te tekenen, gebruiken we het volgende proces:
- Teken een kader van het eerste kwartiel (Q1) tot het derde kwartiel (Q3)
- Teken vervolgens een lijn in de doos op de mediaan
- Teken vervolgens de “snorharen” van de kwartielen naar de minimum- en maximumwaarden.
We kunnen bepalen of een verdeling scheef is of niet, op basis van waar de mediaanwaarde zich in de boxplot bevindt.
Wanneer de mediaan dichter bij de onderkant van de doos ligt en de snorhaar aan de onderkant van de doos korter is, is de verdeling naar rechts scheef (of “positief” scheef).
Wanneer de mediaan dichter bij de bovenkant van de doos ligt en de snorhaar aan de bovenkant van de doos korter is, blijft de verdeling scheef (of “negatief” scheef).
Wanneer de mediaan zich in het midden van de doos bevindt en de snorharen aan beide zijden ongeveer gelijk zijn, is de verdeling symmetrisch (of ‘niet’ asymmetrisch).
De volgende voorbeelden illustreren hoe u boxplots kunt gebruiken om te bepalen of een verdeling rechtsscheef, linksscheef of geen scheefheid heeft.
Voorbeeld 1: Rechtsscheve verdeling
De verdeling van het jaarlijkse gezinsinkomen in de Verenigde Staten is scheef naar rechts. De meeste huishoudens verdienen tussen de $40.000 en $80.000 per jaar, maar er is een lange rechterstaart in de verdeling die huishoudens vertegenwoordigt die veel meer verdienen.
Als we een boxplot zouden maken om de verdeling van het gezinsinkomen te visualiseren, zou het er als volgt uitzien:
Merk op dat de verticale lijn in het vak dat de mediaan weergeeft, veel dichter bij het eerste kwartiel ligt dan bij het derde kwartiel, wat betekent dat de verdeling naar rechts scheef is.
Voorbeeld 2: linksscheve verdeling
De leeftijdsverdeling van sterfgevallen is in de meeste populaties scheef naar links. De meeste mensen leven tussen de 70 en 80 jaar oud, en steeds minder mensen leven onder deze leeftijd.
Als we een boxplot zouden maken om de leeftijdsverdeling van sterfgevallen te visualiseren, zou het er als volgt uitzien:
Merk op dat de verticale lijn in het vak dat de mediaan weergeeft veel dichter bij het derde kwartiel ligt dan het eerste kwartiel, wat betekent dat de verdeling naar links scheef is.
Voorbeeld 3: symmetrische verdeling
De grootteverdeling van mannen is ongeveer symmetrisch en vertoont geen asymmetrie. De gemiddelde lengte van een man in de Verenigde Staten is bijvoorbeeld ongeveer 69,1 inch. De hoogteverdeling is ruwweg symmetrisch, waarbij sommige korter en andere groter zijn.
Als we een boxplot zouden maken om de verdeling van de mannelijke lengte in de Verenigde Staten te visualiseren, zou het er als volgt uitzien:
Merk op dat de verticale lijn binnen het vak dat de mediaan weergeeft ook dicht bij het eerste kwartiel en het derde kwartiel ligt, wat betekent dat de verdeling symmetrisch en zonder scheefheid is.
Aanvullende bronnen
Links- of rechtsscheve verdelingen
Boxplots vergelijken: met voorbeelden
Hoe u zij-aan-zij boxplots kunt maken in Excel