Der vollständige leitfaden: wann ausreißer in daten entfernt werden sollten
Ein Ausreißer ist eine Beobachtung , die ungewöhnlich weit von anderen Werten in einem Datensatz entfernt ist.
Ausreißer können problematisch sein, da sie die Ergebnisse einer Analyse beeinflussen können.
Sie können jedoch auch Einblick in die von Ihnen untersuchten Daten geben, da sie ungewöhnliche Fälle oder Personen mit seltenen Merkmalen aufdecken können.
Bei jeder Analyse müssen Sie entscheiden, ob Sie Ausreißer entfernen oder behalten möchten.
Glücklicherweise können Sie das folgende Flussdiagramm als Entscheidungshilfe verwenden:
Schauen wir uns jede Frage im Flussdiagramm genauer an.
Ist der Ausreißer das Ergebnis eines Dateneingabefehlers?
Manchmal sind Ausreißer in einem Datensatz einfach das Ergebnis eines Dateneingabefehlers.
Angenommen, ein Biologe sammelt Daten zur Höhe einer bestimmten Pflanzenart und zeichnet die folgenden Daten auf:
- 6,83 Zoll
- 7,51 Zoll
- 5,21 Zoll
- 5,84 Zoll
- 7,83 Zoll
- 755 Zoll
- 6,53 Zoll
- 6,31 Zoll
- 5,91 Zoll
Offensichtlich ist der Eintrag für 755 Zoll ein Ausreißer und wahrscheinlich das Ergebnis eines Dateneingabefehlers. Höchstwahrscheinlich hätte die Höhe 7,55 Zoll betragen sollen, aber sie wurde einfach falsch eingegeben.
Wenn der Biologe diese Beobachtung beibehalten und einedeskriptive Statistik wie die durchschnittliche Höhe der Pflanzen in der Probe berechnen würde, würde diese Beobachtung die Ergebnisse stark verzerren und ein ungenaues Bild der tatsächlichen durchschnittlichen Pflanzenhöhe liefern.
In diesem Szenario (und ähnlichen Szenarios) ist es sinnvoll, diesen Ausreißer aus dem Datensatz zu entfernen, da es sich um einen Fehler und keinen legitimen Datenpunkt für die Einbeziehung in die Analyse handelt.
Beeinflusst der Ausreißer die Analyseergebnisse erheblich?
Wenn eine Beobachtung ein echter Ausreißer ist und nicht einfach das Ergebnis eines Dateneingabefehlers ist, müssen wir untersuchen, ob der Ausreißer die Ergebnisse der Analyse beeinflusst oder nicht.
Angenommen, ein Biologe untersucht den Zusammenhang zwischen Dünger und Pflanzenhöhe. Sie möchte ein einfaches lineares Regressionsmodell anpassen, das Dünger als Prädiktorvariable und Pflanzenhöhe als Antwortvariable verwendet.
Es sammelt die folgenden Daten für 12 verschiedene Fabriken:
Es ist klar, dass die letzte Beobachtung abweichend ist.
Wenn wir jedoch ein Streudiagramm erstellen, um diesen Datensatz zu visualisieren, können wir sehen, dass sich die Regressionslinie nicht wesentlich ändern würde, unabhängig davon, ob wir den Ausreißer einbeziehen oder nicht:
In diesem Szenario verstößt der Ausreißer nicht gegen die Annahmen eines linearen Regressionsmodells , sodass wir ihn im Datensatz belassen können.
Nehmen wir jedoch an, dass wir den folgenden Ausreißer in den Daten haben:
Offensichtlich hat dieser Ausreißer erhebliche Auswirkungen auf die Regressionslinie, sodass wir ein Regressionsmodell mit dem Ausreißer und eines ohne anpassen und dann die Ergebnisse beider Regressionsmodelle melden können.
Beeinflusst der Ausreißer die in der Analyse getroffenen Annahmen?
Wenn ein Ausreißer nicht das Ergebnis eines Dateneingabefehlers ist und die Ergebnisse einer Analyse nicht wesentlich beeinflusst, müssen wir uns fragen, ob der Ausreißer die in einer Analyse aufgestellten Hypothesen beeinflusst oder nicht. Analyse.
Wenn es die Annahmen nicht beeinflusst, können wir es einfach in den Daten belassen.
Sollte sich dies jedoch auf die Annahmen auswirken, haben wir mehrere Möglichkeiten:
1. Entfernen Sie es. Wir können es einfach aus den Daten entfernen und bei der Ergebnisberichterstattung vermerken.
2. Führen Sie eine Transformation der Daten durch. Anstatt den Ausreißer zu entfernen, könnten wir versuchen, eine Transformation der Daten durchzuführen, indem wir beispielsweise die Quadratwurzel oder den Logarithmus aller Werte in den Daten ziehen. Es hat sich gezeigt, dass dadurch Ausreißer reduziert werden und die Daten häufig normaler verteilt werden.
Unabhängig davon, wie Sie mit Ausreißern in Ihren Daten umgehen, sollten Sie Ihre Entscheidung zusammen mit Ihrer Begründung im Ergebnis Ihrer Analyse vermerken.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie Ausreißer in verschiedenen Statistikprogrammen finden und entfernen:
So finden Sie Ausreißer in Excel
So finden Sie Ausreißer in Google Sheets
So finden Sie Ausreißer in R
So finden Sie Ausreißer in Python
So finden Sie Ausreißer in SPSS