Wie wirken sich ausreißer auf den mittelwert aus?


In der Statistik ist der Durchschnitt einer Datenmenge der Durchschnittswert. Dies ist nützlich zu wissen, da es uns eine Vorstellung davon gibt, wo sich das „Zentrum“ des Datensatzes befindet. Die Berechnung erfolgt nach der einfachen Formel:

Durchschnitt = (Summe der Beobachtungen) / (Anzahl der Beobachtungen)

Angenommen, wir haben den folgenden Datensatz:

[1, 4, 5, 6, 7]

Der Durchschnitt des Datensatzes beträgt (1+4+5+6+7) / (5) = 4,6

Obwohl der Durchschnitt nützlich und einfach zu berechnen ist, hat er einen Nachteil: Er kann durch Ausreißer beeinflusst werden . Insbesondere gilt: Je kleiner der Datensatz, desto stärker könnte ein Ausreißer den Mittelwert beeinflussen.

Um dies zu veranschaulichen, betrachten Sie das folgende klassische Beispiel:

Zehn Männer sitzen in einer Bar. Das Durchschnittseinkommen von zehn Männern beträgt 50.000 US-Dollar. Plötzlich kommt ein Mann heraus und Bill Gates kommt herein. Heute beträgt das Durchschnittseinkommen der zehn Männer in der Bar 40 Millionen Dollar.

Dieses Beispiel zeigt, wie ein Ausreißer (Bill Gates) den Durchschnitt erheblich beeinflussen könnte.

Kleine und große Ausreißer

Ein Ausreißer kann den Mittelwert beeinflussen, indem er ungewöhnlich klein oder ungewöhnlich groß ist. Im vorherigen Beispiel hatte Bill Gates ein ungewöhnlich hohes Einkommen, sodass der Durchschnittswert irreführend ist.

Allerdings kann sich auch ein ungewöhnlich niedriger Wert auf den Durchschnitt auswirken. Um dies zu veranschaulichen, betrachten Sie das folgende Beispiel:

Zehn Studierende legen eine Prüfung ab und erhalten folgende Noten:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

Die durchschnittliche Punktzahl beträgt 84,6 .

Wenn wir jedoch die Punktzahl „0“ aus dem Datensatz entfernen, beträgt die durchschnittliche Punktzahl 94 .

Die ungewöhnlich niedrige Punktzahl eines Schülers senkt den Durchschnitt des gesamten Datensatzes.

Stichprobengröße und Ausreißer

Je kleiner die Stichprobengröße des Datensatzes ist, desto wahrscheinlicher ist es, dass ein Ausreißer den Mittelwert beeinflusst.

Angenommen, wir haben einen Datensatz mit 100 Prüfungsergebnissen, bei denen alle Schüler mindestens 90 Punkte oder mehr erreicht haben, mit Ausnahme eines Schülers, der eine Null erzielte:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

Der Durchschnitt liegt bei 93,18 . Wenn wir die „0“ aus dem Datensatz entfernen würden, läge der Durchschnitt bei 94,12 . Das ist ein relativ kleiner Unterschied. Dies zeigt, dass selbst ein extremer Ausreißer nur einen minimalen Effekt hat, wenn der Datensatz groß genug ist.

Wie man mit Ausreißern umgeht

Wenn Sie befürchten, dass es in Ihrem Datensatz einen Ausreißer geben könnte, haben Sie mehrere Möglichkeiten:

  • Stellen Sie sicher, dass der Ausreißer nicht auf einen Dateneingabefehler zurückzuführen ist. Manchmal gibt eine Person beim Speichern der Daten einfach den falschen Datenwert ein. Wenn ein Ausreißer vorhanden ist, überprüfen Sie zunächst, ob der Wert korrekt eingegeben wurde und kein Fehler vorliegt.
  • Weisen Sie dem Ausreißer einen neuen Wert zu . Wenn sich herausstellt, dass der Ausreißer das Ergebnis eines Dateneingabefehlers ist, können Sie ihm einen neuen Wert zuweisen, beispielsweise den Mittelwert oder Median des Datensatzes.
  • Entfernen Sie den Ausreißer. Wenn es sich bei dem Wert wirklich um einen Ausreißer handelt, können Sie ihn entfernen, wenn er erhebliche Auswirkungen auf Ihre Gesamtanalyse hat. Erwähnen Sie in Ihrem Abschlussbericht oder Ihrer Analyse unbedingt, dass Sie einen Ausreißer entfernt haben.

Verwenden Sie den Median

Eine andere Möglichkeit, die „Mitte“ eines Datensatzes zu ermitteln, besteht darin, den Median zu verwenden, den man erhält, indem man alle Einzelwerte in einem Datensatz vom kleinsten zum größten anordnet und den Medianwert ermittelt.

Aufgrund der Art und Weise, wie er berechnet wird, wird der Median weniger von Ausreißern beeinflusst und er erfasst die zentrale Position einer Verteilung besser, wenn es Ausreißer gibt.

Betrachten Sie beispielsweise die folgende Grafik, die die Quadratmeterzahl von Häusern in einem bestimmten Viertel zeigt:

Der Durchschnitt wird stark von einigen wenigen extrem großen Häusern beeinflusst, während dies beim Median nicht der Fall ist. Somit erfasst der Median die „typische“ Quadratmeterzahl eines Hauses in dieser Nachbarschaft besser als der Durchschnitt.

Weiterführende Literatur:

Maße der zentralen Tendenz – Mittelwert, Median und Modus
Dixons Q-Test zur Erkennung von Ausreißern
Ausreißerrechner

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert