Wanneer moet u gemiddelde vs. mediaan: met voorbeelden
Het gemiddelde van een dataset vertegenwoordigt de gemiddelde waarde van de dataset. Het wordt als volgt berekend:
Gemiddeld = Σx i / n
Goud:
- Σ: Een symbool dat “som” betekent
- x i : De i- de observatie in een dataset
- n: het totale aantal waarnemingen in de dataset
De mediaan vertegenwoordigt de middelste waarde van een dataset. Het wordt berekend door alle waarnemingen in een dataset te ordenen van klein naar groot en vervolgens de mediaanwaarde te identificeren.
Stel dat we bijvoorbeeld de volgende dataset hebben met 11 waarnemingen :
Gegevensset: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
Het gemiddelde van de dataset wordt als volgt berekend:
Gemiddeld = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
De mediaan van de dataset is de waarde direct in het midden, die 8 blijkt te zijn:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
De gemiddelde en mediane schatting van waar het midden van een dataset zich bevindt. Afhankelijk van de aard van de gegevens kan het gemiddelde of de mediaan echter nuttiger zijn bij het beschrijven van het centrum van de gegevensset.
Wanneer moet u het gemiddelde gebruiken?
Het is het beste om het gemiddelde te gebruiken om het centrum van een dataset te beschrijven als de verdeling in wezen symmetrisch is en er geen uitschieters zijn.
Stel dat we bijvoorbeeld de volgende verdeling hebben die de salarissen van inwoners van een bepaalde stad weergeeft:
Omdat deze verdeling redelijk symmetrisch is (als je hem in het midden splitst, ziet elke helft er ongeveer gelijk uit) en er geen uitschieters zijn, kunnen we het gemiddelde gebruiken om het middelpunt van deze reeks gegevens te beschrijven.
Het gemiddelde blijkt $63.000 te zijn, wat ongeveer in het midden van de verdeling ligt:
Wanneer moet u de mediaan gebruiken?
Het is het beste om de mediaan te gebruiken als de verdelingscheef is of als er uitschieters zijn.
Vervormde gegevens:
Wanneer een verdeling scheef is, beschrijft de mediaan het centrum van de verdeling beter dan het gemiddelde.
Beschouw bijvoorbeeld de volgende verdeling van de salarissen van inwoners van een bepaalde stad:
De mediaan weerspiegelt beter het “typische” salaris van een inwoner dan het gemiddelde. Dit komt omdat hoge waarden aan de staart van de verdeling de neiging hebben om het gemiddelde weg te duwen van het midden en naar de lange staart.
In dit voorbeeld vertelt het gemiddelde ons dat een gemiddeld individu ongeveer $47.000 per jaar verdient, terwijl de mediaan ons vertelt dat het typische individu slechts ongeveer $32.000 per jaar verdient, wat veel representatiever is voor het typische individu.
Uitschieters:
De mediaan helpt ook om de centrale locatie van een verdeling beter vast te leggen als er uitschieters in de gegevens voorkomen. Bekijk bijvoorbeeld de volgende grafiek die de vierkante meters van huizen in een bepaalde straat laat zien:
Het gemiddelde wordt sterk beïnvloed door enkele extreem grote huizen, terwijl de mediaan dat niet is. De mediaan kan dus beter de ‘typische’ vierkante meters van een huis in die straat vastleggen dan het gemiddelde.
Samenvatting
Samengevat:
- Het gemiddelde en de mediaan kunnen worden gebruikt om te beschrijven waar het „centrum“ van een dataset zich bevindt.
- Het beste is om het gemiddelde te gebruiken als de verdeling van de gegevenswaarden symmetrisch is en er geen duidelijke uitschieters zijn.
- Het is het beste om de mediaan te gebruiken wanneer de verdeling van gegevenswaarden scheef is of wanneer er duidelijke uitschieters zijn.
Aanvullende bronnen
Hoe beïnvloeden uitbijters het gemiddelde?
Hoe u het gemiddelde en de mediaan van elk histogram kunt schatten
Hoe u het gemiddelde en de mediaan van stengel- en bladplots kunt vinden