So identifizieren sie ausreißer in spss
Ein Ausreißer ist eine Beobachtung, die ungewöhnlich weit von anderen Werten in einem Datensatz entfernt ist. Ausreißer können problematisch sein, da sie die Ergebnisse einer Analyse beeinflussen können.
In diesem Tutorial wird erläutert, wie Sie Ausreißer in SPSS identifizieren und behandeln.
So identifizieren Sie Ausreißer in SPSS
Angenommen, wir haben den folgenden Datensatz, der das Jahreseinkommen (in Tausend) von 15 Personen zeigt:
Eine Möglichkeit, festzustellen, ob Ausreißer vorhanden sind, besteht darin, ein Boxplot für den Datensatz zu erstellen. Klicken Sie dazu auf die Registerkarte „Analysieren“ , dann auf „Beschreibende Statistik“ und dann auf „Erkunden“ :
Ziehen Sie im neuen Fenster, das erscheint, das variable Einkommen in das Feld mit der Bezeichnung Liste der Angehörigen. Klicken Sie dann auf „Statistik“ und stellen Sie sicher, dass das Kontrollkästchen neben „Perzentile“ aktiviert ist. Klicken Sie dann auf Weiter . Klicken Sie dann auf OK .
Sobald Sie auf OK klicken, wird ein Boxplot angezeigt:
Wenn sich an beiden Enden des Boxplots keine Kreise oder Sternchen befinden, bedeutet dies, dass keine Ausreißer vorhanden sind.
SPSS betrachtet jeden Datenwert als Ausreißer, wenn er außerhalb der folgenden Bereiche liegt:
- 3. Quartil + 1,5*Interquartilbereich
- 1. Quartil – 1,5*Interquartilbereich
Wir können den Interquartilbereich berechnen, indem wir die Differenz zwischen dem 75. und 25. Perzentil in der Zeile mit der Bezeichnung „Tukey Hinges“ im Ergebnis nehmen:
Für diesen Datensatz beträgt der Interquartilbereich 82 – 36 = 46 . Daher würden alle Werte außerhalb der folgenden Bereiche als Ausreißer betrachtet:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Offensichtlich kann das Einkommen nicht negativ sein, daher ist die Untergrenze in diesem Beispiel nicht sinnvoll. Allerdings würde jedes Einkommen über 151 als Ausreißer gelten.
Nehmen wir zum Beispiel an, der größte Wert in unserem Datensatz ist stattdessen 152. Hier ist das Boxplot für diesen Datensatz:
Der Kreis zeigt an, dass in den Daten ein Ausreißer vorhanden ist. Die Zahl 15 gibt an, welche Beobachtung im Datensatz der Ausreißer ist.
SPSS betrachtet jeden Datenwert auch als extremen Ausreißer , wenn er außerhalb der folgenden Bereiche liegt:
- 3. Quartil + 3*Interquartilbereich
- 1. Quartil – 3*Interquartilbereich
Daher würden in diesem Beispiel alle Werte außerhalb der folgenden Bereiche als extreme Ausreißer betrachtet:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Angenommen, der größte Wert in unserem Datensatz ist 221. Hier ist das Boxplot dieses Datensatzes:
Das Sternchen (*) zeigt an, dass in den Daten ein extremer Ausreißer vorhanden ist. Die Zahl 15 gibt an, welche Beobachtung im Datensatz der extreme Ausreißer ist.
Wie man mit Ausreißern umgeht
Wenn in Ihren Daten ein Ausreißer vorhanden ist, haben Sie mehrere Möglichkeiten:
1. Stellen Sie sicher, dass der Ausreißer nicht auf einen Dateneingabefehler zurückzuführen ist.
Manchmal gibt eine Person beim Speichern der Daten einfach den falschen Datenwert ein. Wenn ein Ausreißer vorhanden ist, überprüfen Sie zunächst, ob der Wert korrekt eingegeben wurde und kein Fehler vorliegt.
2. Entfernen Sie den Ausreißer.
Wenn der Wert wirklich ein Ausreißer ist, können Sie ihn entfernen, wenn er erhebliche Auswirkungen auf Ihre Gesamtanalyse hat. Erwähnen Sie in Ihrem Abschlussbericht oder Ihrer Analyse unbedingt, dass Sie einen Ausreißer entfernt haben.
3. Weisen Sie dem Ausreißer einen neuen Wert zu .
Wenn sich herausstellt, dass der Ausreißer das Ergebnis eines Dateneingabefehlers ist, können Sie ihm einen neuen Wert zuweisen, beispielsweise den Mittelwert oder Median des Datensatzes.
Zusätzliche Ressourcen
Wenn Sie mit mehreren Variablen gleichzeitig arbeiten, möchten Sie möglicherweise die Mahalanobis-Distanz verwenden, um Ausreißer zu erkennen.