Vor- und nachteile der verwendung des durchschnitts in der statistik
Der Mittelwert eines Datensatzes stellt den Durchschnittswert des Datensatzes dar.
Es wird wie folgt berechnet:
Durchschnitt = Σx i / n
Gold:
- Σ: Ein Symbol, das „Summe“ bedeutet
- x i : Die i- te Beobachtung in einem Datensatz
- n: die Gesamtzahl der Beobachtungen im Datensatz
Die Verwendung des Mittelwerts zur Beschreibung des „Zentrums“ oder „Durchschnitts“ eines Datensatzes bietet zwei Hauptvorteile:
Vorteil Nr. 1: Der Durchschnitt berücksichtigt alle Beobachtungen eines Datensatzes in seiner Berechnung. In der Statistik ist dies im Allgemeinen eine gute Sache, da man davon spricht, dass alle in einem Datensatz verfügbaren Informationen genutzt werden.
Vorteil Nr. 2: Der Durchschnitt ist einfach zu berechnen und zu interpretieren. Der Mittelwert ist die Summe aller Beobachtungen dividiert durch die Gesamtzahl der Beobachtungen. Es ist sowohl leicht zu berechnen (auch manuell) als auch leicht zu interpretieren.
Die Verwendung des Mittelwerts zum Zusammenfassen eines Datensatzes hat jedoch zwei potenzielle Nachteile:
Nachteil Nr. 1: Der Durchschnitt wird durch Ausreißer beeinflusst. Wenn ein Datensatz einen extremen Ausreißer aufweist, wirkt sich dies auf den Mittelwert aus und macht ihn zu einem unzuverlässigen Maß für die Mitte eines Datensatzes.
Nachteil Nr. 2: Der Durchschnitt kann bei verzerrten Datensätzen irreführend sein. Wenn ein Datensatz nach links oder rechts geneigt ist, kann die Mittelung eine irreführende Methode zur Messung der Mitte eines Datensatzes sein.
Die folgenden Beispiele veranschaulichen diese Vor- und Nachteile in der Praxis.
Beispiel 1: Die Vorteile der Verwendung des Durchschnitts
Angenommen, wir haben das folgende Histogramm, das die Gehälter der Einwohner einer bestimmten Stadt zeigt:
Da diese Verteilung im Allgemeinen symmetrisch ist (wenn man sie in der Mitte aufteilt, würde jede Hälfte ungefähr gleich aussehen) und es keine Ausreißer gibt, ist der Mittelwert eine nützliche Möglichkeit, die Mitte dieses Datensatzes zu beschreiben.
Der Durchschnitt liegt bei 63.000 US-Dollar, was ungefähr in der Mitte der Verteilung liegt:
In diesem speziellen Beispiel konnten wir beide Vorteile der Mittelwertbildung nutzen:
Vorteil Nr. 1: Der Durchschnitt berücksichtigt alle Beobachtungen eines Datensatzes in seiner Berechnung.
Da die Verteilung im Wesentlichen symmetrisch war und es keine extremen Ausreißer gab, konnten wir alle verfügbaren Gehälter zur Berechnung des Durchschnitts verwenden, was uns eine gute Vorstellung vom „durchschnittlichen“ oder „typischen“ Gehalt in dieser bestimmten Stadt gab.
Vorteil Nr. 2: Der Durchschnitt ist einfach zu berechnen und zu interpretieren. Es ist leicht zu verstehen, dass das Durchschnittsgehalt von 63.000 US-Dollar das „durchschnittliche“ Gehalt einer Einzelperson in dieser Stadt darstellt.
Obwohl manche deutlich mehr und andere deutlich weniger verdienen, gibt uns dieser Durchschnittswert eine gute Vorstellung von einem „typischen“ Gehalt in dieser Stadt.
Beispiel 2: Die Nachteile der Verwendung des Durchschnitts
Angenommen, wir haben eine sehr verzerrte Gehaltsverteilung und beschließen, sowohl das Durchschnittsgehalt als auch das Mediangehalt zu berechnen:
Höhere Werte am Ende der Verteilung verschieben den Mittelwert von der Mitte weg und in Richtung des langen Endes.
In diesem Beispiel sagt uns der Durchschnitt, dass eine typische Person etwa 47.000 US-Dollar pro Jahr verdient, während der Median uns sagt, dass die typische Person nur etwa 32.000 US-Dollar pro Jahr verdient, was für die typische Person viel repräsentativer ist.
In diesem Beispiel fasst der Mittelwert den „typischen“ oder „durchschnittlichen“ Wert in dieser Verteilung schlecht zusammen, da die Verteilung verzerrt ist.
Oder nehmen wir an, wir haben eine andere Verteilung, die Informationen über die Quadratmeterzahl von Häusern in einer bestimmten Straße enthält, und beschließen, sowohl den Mittelwert als auch den Median des Datensatzes zu berechnen:
Der Durchschnitt wird durch einige extrem große Häuser beeinflusst, wodurch er einen deutlich höheren Wert annimmt.
Dadurch ist der durchschnittliche Quadratmeterwert irreführend und liefert nur ein schlechtes Maß für die „typische“ Quadratmeterzahl eines Hauses in dieser Straße.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zum Mittelwert und Median in der Statistik:
Wie wirken sich Ausreißer auf den Mittelwert aus?
So schätzen Sie den Mittelwert und den Median eines beliebigen Histogramms
So ermitteln Sie den Mittelwert und den Median von Stamm- und Blattdiagrammen