Voor- en nadelen van het gebruik van de mediaan in statistieken


De mediaan vertegenwoordigt de middelste waarde van een dataset.

Het wordt berekend door alle waarnemingen in een dataset te ordenen van klein naar groot en vervolgens de mediaanwaarde te identificeren.

Er zijn twee belangrijke voordelen aan het gebruik van de mediaan om het centrum van een dataset te beschrijven:

Voordeel #1: De mediaan wordt niet beïnvloed door uitschieters. Omdat de mediaan alleen de middelste waarde van een dataset vindt, wordt deze niet beïnvloed door extreem kleine of extreem grote waarden aan beide uiteinden van een dataset.

Voordeel #2: De mediaan is een goede maatstaf voor het centrum voor scheve datasets. Wanneer een dataset naarlinks of rechts scheef is, slaagt de mediaan er nog steeds in om de centrale waarde van een dataset te identificeren, in tegenstelling tot het gemiddelde dat sterk wordt beïnvloed door scheve verdelingen.

Het gebruik van de mediaan om een dataset samen te vatten heeft echter twee potentiële nadelen:

Nadeel #1: De mediaan gebruikt niet alle waarnemingen in een dataset bij de berekening. In de statistiek zeggen we over het algemeen dat het goed is als we alle waarnemingen in een dataset kunnen gebruiken, omdat we dan alle beschikbare informatie uit onze data gebruiken. De mediaan houdt echter geen rekening met informatie uit extreem kleine of extreem grote waarden in een dataset.

Nadeel #2: De mediaan kan niet worden gebruikt om de som van alle waarnemingen in de dataset te vinden. Als we de gemiddelde en totale steekproefomvang van een dataset kennen, kunnen we de som van alle waarden in de dataset vinden. We kunnen echter niet hetzelfde doen met de mediaan.

De volgende voorbeelden illustreren deze voor- en nadelen in de praktijk.

Voorbeeld 1: de voordelen van het gebruik van de mediaan

Stel dat we een zeer scheve salarisverdeling hebben en we besluiten zowel het gemiddelde als het mediaansalaris te berekenen:

Het gemiddelde vertelt ons dat een gemiddeld individu ongeveer $47.000 per jaar verdient, terwijl de mediaan ons vertelt dat het typische individu slechts ongeveer $32.000 per jaar verdient, wat veel representatiever is voor het typische individu.

In dit voorbeeld wordt het gemiddelde beïnvloed door de hoogste waarden aan de rechterzijde van de verdeling, terwijl dat niet het geval is voor de mediaan.

Of stel dat we een andere verdeling hebben die informatie bevat over de vierkante meters van huizen in een bepaalde straat en we besluiten zowel het gemiddelde als de mediaan van de dataset te berekenen:

Wanneer moet u het gemiddelde versus de mediaan gebruiken?

Het gemiddelde wordt beïnvloed door enkele extreem grote huizen, waardoor deze een veel hogere waarde aannemen.

De mediaan wordt echter niet beïnvloed door deze uitschieters en geeft daarom een veel betere maatstaf voor de ‘typische’ vierkante meters van een huis in die straat.

Voorbeeld 2: de nadelen van het gebruik van de mediaan

Laten we ons het eerste potentiële nadeel van de mediaan herinneren:

Nadeel #1: De mediaan gebruikt niet alle waarnemingen in een dataset bij de berekening.

Stel dat we bijvoorbeeld de volgende gegevensset hebben die de verdeling van examenscores voor studenten in een klas laat zien:

Waarderingen: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

De gemiddelde score op het examen is 83.

Stel nu dat we dezelfde dataset hebben, maar dat de drie laagste examenscores veel lager zijn:

Waarderingen: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

De mediane examenscore in deze verdeling is nog steeds 83.

Dit is de reden waarom we zeggen dat de mediaan niet alle informatie gebruikt die beschikbaar is in een dataset: hij houdt geen rekening met de werkelijke waarden van de gegevens, aangezien deze slechts een maatstaf voor de positie is.

Laten we nu eens kijken naar het tweede potentiële nadeel van de mediaan:

Nadeel #2: De mediaan kan niet worden gebruikt om de som van alle waarnemingen in de dataset te vinden.

Stel dat we de volgende gegevensset hebben met informatie over de totale omzet van 11 verschillende werknemers in een bepaald kwartaal:

Verkoop: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

We weten dat de mediaanwaarde 24 is en we weten dat er in totaal 11 werknemers zijn. We kunnen deze informatie echter niet gebruiken om het totale verkoopbedrag van alle medewerkers te kennen.

Aan de andere kant, als we wisten dat de gemiddelde waarde 24 is en dat er in totaal 11 werknemers zijn, zouden we 24 eenvoudigweg met 11 kunnen vermenigvuldigen om te ontdekken dat het totale verkoopbedrag 24 * 11 = 264 is.

Opmerking : afhankelijk van de distributie van uw gegevens en het probleem dat u probeert op te lossen, kan het gemiddelde of de mediaan de voorkeursmaatstaf zijn.

Aanvullende bronnen

De volgende tutorials bieden aanvullende informatie over het gemiddelde en de mediaan in statistieken:

Hoe beïnvloeden uitbijters het gemiddelde?
Hoe u het gemiddelde en de mediaan van elk histogram kunt schatten
Hoe u het gemiddelde en de mediaan van stengel- en bladplots kunt vinden

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert