Warum ist der durchschnitt in der statistik wichtig?
Der Mittelwert eines Datensatzes stellt den Durchschnittswert des Datensatzes dar. Es wird wie folgt berechnet:
Durchschnitt = Σx i / n
Gold:
- Σ: Ein Symbol, das „Summe“ bedeutet
- x i : Die i- te Beobachtung in einem Datensatz
- n: die Gesamtzahl der Beobachtungen im Datensatz
Angenommen, wir haben den folgenden Datensatz mit 11 Beobachtungen:
Datensatz: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
Der Durchschnitt des Datensatzes wird wie folgt berechnet:
Durchschnitt = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
In der Statistik ist der Durchschnitt aus folgenden Gründen wichtig:
1. Der Durchschnitt gibt uns eine Vorstellung davon, wo sich das „Zentrum“ eines Datensatzes befindet.
2. Aufgrund der Art und Weise seiner Berechnung enthält der Durchschnitt Informationen aus jeder Beobachtung in einem Datensatz.
Das folgende Beispiel veranschaulicht diese beiden Gründe.
Beispiel: Berechnen Sie den Durchschnitt eines Datensatzes
Nehmen wir an, wir haben einen Datensatz, der die Verkaufspreise von 10.000 verschiedenen Häusern in einer bestimmten Stadt enthält.
Anstatt Tausende Zeilen mit Rohdaten zu betrachten, können wir den Durchschnittswert berechnen, um schnell den durchschnittlichen Verkaufspreis von Häusern in dieser Stadt zu ermitteln.
Wenn wir wissen, dass der durchschnittliche Verkaufspreis 297.000 US-Dollar beträgt, können wir uns ein Bild davon machen, wofür ein „typisches“ Haus in dieser Stadt verkauft wird.
Dieser einzelne Durchschnittswert ist viel einfacher zu interpretieren als die Betrachtung aller Rohdatenzeilen.
Und da jeder Hausverkaufspreis zur Berechnung des Durchschnitts herangezogen wurde, könnten wir den durchschnittlichen Verkaufspreis mit der Gesamtzahl der Häuser multiplizieren, um den Gesamtverkaufspreis aller Häuser in dieser Stadt zu ermitteln:
- Gesamtverkaufspreis aller Häuser = Durchschnittlicher Verkaufspreis * Anzahl der Häuser
- Gesamtverkaufspreis aller Häuser = 297.000 $ * 10.000
- Gesamtverkaufspreis aller Häuser = 2.970.000.000 $
Wir können sehen, dass der Gesamtverkaufspreis aller Häuser in dieser Stadt 2,97 Milliarden US-Dollar beträgt.
Wann sollte der Durchschnitt verwendet werden?
Bei der Analyse von Datensätzen wollen wir oft verstehen, wo der zentrale Wert liegt.
In der Statistik gibt es zwei gängige Metriken, mit denen wir den Mittelpunkt eines Datensatzes messen:
- Mittelwert : der Durchschnittswert in einem Datensatz
- Median : Der Medianwert in einem Datensatz
Der Durchschnitt ist die gebräuchlichste Methode zur Messung der Mitte eines Datensatzes, kann jedoch in den folgenden Situationen tatsächlich irreführend sein:
- Wenn die Verteilung asymmetrisch ist.
- Wenn die Verteilung Ausreißer enthält.
Um dies zu veranschaulichen, betrachten Sie die folgenden zwei Beispiele.
Beispiel 1: Berechnung des Mittelwerts einer schiefen Verteilung
Betrachten Sie die folgende Gehaltsverteilung für Einwohner einer bestimmten Stadt:
Hohe Löhne auf der rechten Seite der Verteilung verschieben den Mittelwert aus der Mitte der Verteilung.
Daher spiegelt der Median das „typische“ Gehalt eines Bewohners besser wider als der Durchschnitt, da die Verteilung rechtsschief ist.
In diesem speziellen Beispiel beträgt das Durchschnittsgehalt 47.000 US-Dollar, während das Durchschnittsgehalt 32.000 US-Dollar beträgt.
Somit ist der Median viel repräsentativer für das typische Gehalt in dieser Stadt.
Beispiel 2: Berechnung des Mittelwerts bei Vorhandensein von Ausreißern
Betrachten Sie die folgende Grafik, die die Quadratmeterzahl von Häusern in einer bestimmten Straße zeigt:
Der Durchschnitt wird stark von einigen wenigen extrem großen Häusern beeinflusst, während dies beim Median nicht der Fall ist.
Wir können sehen, dass der Median die „typische“ Quadratmeterzahl eines Hauses in dieser Straße besser erfasst als der Durchschnitt, da er nicht durch Ausreißer beeinflusst wird.
Zusammenfassung
Hier ist eine kurze Zusammenfassung der wichtigsten Erkenntnisse aus diesem Artikel:
- Der Mittelwert stellt den Durchschnittswert in einem Datensatz dar.
- Der Mittelwert ist wichtig, weil er uns eine Vorstellung davon gibt, wo der zentrale Wert in einem Datensatz liegt.
- Der Mittelwert ist auch deshalb wichtig, weil er Informationen aus jeder Beobachtung in einem Datensatz enthält.
- Der Durchschnitt kann irreführend sein, wenn ein Datensatz verzerrt ist oder Ausreißer enthält. In diesen Szenarien gibt der Median eine genauere Vorstellung davon, wo sich das „Zentrum“ eines Datensatzes befindet.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zu anderen deskriptiven Statistiken:
Warum ist der Median in der Statistik wichtig?
Warum ist die Standardabweichung in der Statistik wichtig?
Wann sollte der Mittelwert gegenüber dem Median verwendet werden?