Vor- und nachteile der verwendung des medians in der statistik
Der Median stellt den Mittelwert eines Datensatzes dar.
Er wird berechnet, indem alle Beobachtungen in einem Datensatz vom kleinsten zum größten geordnet werden und dann der Medianwert ermittelt wird.
Die Verwendung des Medians zur Beschreibung des Mittelpunkts eines Datensatzes bietet zwei Hauptvorteile:
Vorteil Nr. 1: Der Median wird nicht durch Ausreißer beeinflusst. Da der Median nur den mittleren Wert eines Datensatzes findet, wird er nicht durch extrem kleine oder extrem große Werte an beiden Enden eines Datensatzes beeinflusst.
Vorteil Nr. 2: Der Median ist ein gutes Maß für die Mitte bei verzerrten Datensätzen. Wenn ein Datensatz nach links oder rechts verzerrt ist, kann der Median immer noch den zentralen Wert eines Datensatzes identifizieren, im Gegensatz zum Mittelwert, der stark von verzerrten Verteilungen beeinflusst wird.
Die Verwendung des Medians zur Zusammenfassung eines Datensatzes hat jedoch zwei potenzielle Nachteile:
Nachteil Nr. 1: Der Median berücksichtigt bei seiner Berechnung nicht alle Beobachtungen in einem Datensatz. In der Statistik sagen wir im Allgemeinen, dass es gut ist, wenn wir alle Beobachtungen in einem Datensatz nutzen können, denn dann nutzen wir alle verfügbaren Informationen aus unseren Daten. Allerdings berücksichtigt der Median keine Informationen aus extrem kleinen oder extrem großen Werten in einem Datensatz.
Nachteil Nr. 2: Der Median kann nicht verwendet werden, um die Summe aller Beobachtungen im Datensatz zu ermitteln. Wenn wir den Mittelwert und die Gesamtstichprobengröße eines Datensatzes kennen, können wir die Summe aller Werte im Datensatz ermitteln. Allerdings können wir mit dem Median nicht dasselbe tun.
Die folgenden Beispiele veranschaulichen diese Vor- und Nachteile in der Praxis.
Beispiel 1: Die Vorteile der Verwendung des Medians
Angenommen, wir haben eine sehr verzerrte Gehaltsverteilung und beschließen, sowohl das Durchschnittsgehalt als auch das Mediangehalt zu berechnen:
Der Durchschnitt sagt uns, dass eine typische Person etwa 47.000 US-Dollar pro Jahr verdient, während der Median uns sagt, dass die typische Person nur etwa 32.000 US-Dollar pro Jahr verdient, was viel repräsentativer für die typische Person ist.
In diesem Beispiel wird der Mittelwert durch die höchsten Werte am rechten Ende der Verteilung beeinflusst, der Median hingegen nicht.
Oder nehmen wir an, wir haben eine andere Verteilung, die Informationen über die Quadratmeterzahl von Häusern in einer bestimmten Straße enthält, und beschließen, sowohl den Mittelwert als auch den Median des Datensatzes zu berechnen:
Der Durchschnitt wird durch einige extrem große Häuser beeinflusst, wodurch er einen deutlich höheren Wert annimmt.
Der Median wird jedoch von diesen Ausreißern nicht beeinflusst und bietet daher ein viel besseres Maß für die „typische“ Quadratmeterzahl eines Hauses in dieser Straße.
Beispiel 2: Die Nachteile der Verwendung des Medians
Erinnern wir uns an den ersten möglichen Nachteil des Medians:
Nachteil Nr. 1: Der Median berücksichtigt bei seiner Berechnung nicht alle Beobachtungen in einem Datensatz.
Angenommen, wir haben den folgenden Datensatz, der die Verteilung der Prüfungsergebnisse für Schüler in einer Klasse zeigt:
Bewertungen: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Die durchschnittliche Punktzahl bei der Prüfung beträgt 83.
Angenommen, wir haben denselben Datensatz, aber die drei niedrigsten Prüfungsergebnisse sind viel niedriger:
Bewertungen: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Die mittlere Prüfungspunktzahl in dieser Verteilung beträgt immer noch 83.
Aus diesem Grund sagen wir, dass der Median nicht alle in einem Datensatz verfügbaren Informationen nutzt: Er berücksichtigt nicht die tatsächlichen Werte der Daten, da er nur ein Maß für die Position ist.
Erinnern wir uns nun an den zweiten möglichen Nachteil des Medians:
Nachteil Nr. 2: Der Median kann nicht verwendet werden, um die Summe aller Beobachtungen im Datensatz zu ermitteln.
Angenommen, wir verfügen über den folgenden Datensatz, der Informationen über den Gesamtumsatz von 11 verschiedenen Mitarbeitern in einem bestimmten Quartal enthält:
Verkäufe: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
Wir wissen, dass der Medianwert bei 24 liegt und wir wissen, dass es insgesamt 11 Mitarbeiter gibt. Wir können diese Informationen jedoch nicht verwenden, um den Gesamtumsatz aller Mitarbeiter zu ermitteln.
Wenn wir andererseits wüssten, dass der Durchschnittswert 24 beträgt und dass es insgesamt 11 Mitarbeiter gibt, könnten wir einfach 24 mit 11 multiplizieren, um herauszufinden, dass die Gesamtumsatzsumme 24 * 11 = 264 beträgt.
Hinweis : Abhängig von der Verteilung Ihrer Daten und dem Problem, das Sie lösen möchten, ist der Mittelwert oder Median möglicherweise die bevorzugte Metrik.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zum Mittelwert und Median in der Statistik:
Wie wirken sich Ausreißer auf den Mittelwert aus?
So schätzen Sie den Mittelwert und den Median eines beliebigen Histogramms
So ermitteln Sie den Mittelwert und den Median von Stamm- und Blattdiagrammen