Wie man daten winsorisiert: definition und beispiele
Beim Winsorisieren von Daten werden extreme Ausreißer auf ein bestimmtes Perzentil der Daten gesetzt.
Bei einer Winsorisierung von 90 % werden beispielsweise alle Beobachtungen oberhalb des 95. Perzentils auf den Wert beim 95. Perzentil und alle Beobachtungen unterhalb des 5. Perzentils auf den Wert beim 5. Perzentil gesetzt.
Tatsächlich bedeutet die Winsorisierung von Daten, die Extremwerte eines Datensatzes in weniger extreme Werte zu ändern.
Beispiel: Wie man Daten winsorisiert
Angenommen, wir haben den folgenden Datensatz:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Um eine 90-prozentige Winsorisierung dieses Datensatzes durchzuführen, würden wir zunächst das 5. Perzentil und das 95. Perzentil ermitteln, die wie folgt aussehen:
- 5. Perzentil: 12,35
- 95. Perzentil: 92,05
Wir würden dann alle Werte kleiner als 12,35 gleich 12,35 und alle Werte größer 92,05 gleich 92,05 setzen:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
In diesem Fall wurde der Wert 3 zu 12,35 und der Wert 98 zu 92,05 .
Warum Daten winsorisieren?
Mittelwert und Standardabweichung sind zwei gängige Methoden zur Messung der Lage des Mittelpunkts eines Datensatzes bzw. der Verteilung von Beobachtungen in einem Datensatz.
Diese beiden Maße können jedoch beide durch extreme Ausreißer beeinflusst werden. Durch die Winsorisierung der Daten können wir also extreme Ausreißer definieren, die weniger extremen Werten entsprechen.
Dadurch erhalten wir häufig einen genaueren Überblick über den Mittelwert und die Standardabweichung des Datensatzes.
Pflaumengold Winsorize
Eine andere übliche Methode, mit Ausreißern umzugehen, besteht darin, sie aus dem Datensatz zu entfernen , was bedeutet, dass sie vollständig entfernt werden.
Betrachten Sie beispielsweise den vorherigen Datensatz:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Wenn wir Werte unterhalb des 5. Perzentils oder oberhalb des 95. Perzentils reduzieren wollten, würden wir einfach die Werte 3 und 98 entfernen.
Hier sind einige Faustregeln für den Einsatz von Slicing oder Winsorisierung:
Kürzung: Es ist sinnvoll, Datenwerte zu kürzen, wenn einige Werte völlig unangemessen erscheinen, das heißt, sie sind das Ergebnis eines Dateneingabefehlers.
Winsorisierung: Es ist sinnvoll, Daten zu winsorisieren, wenn wir Beobachtungen beibehalten möchten, die an den Extremen liegen, sie aber nicht zu wörtlich nehmen wollen.
Vorsichtsmaßnahmen bezüglich der Winsorisierung von Daten
Hier sind einige Dinge, die Sie beachten sollten, wenn Sie sich für die Datengewinnung entscheiden:
1. Wenn es keine extremen Ausreißer gibt, werden durch die Winsorisierung der Daten die kleinsten und größten Werte nur geringfügig verändert. Dies ist im Allgemeinen keine gute Idee, da es bedeutet, dass wir Datenwerte lediglich zu dem einzigen Zweck ändern, sie zu ändern.
2. Ausreißer können interessante Randfälle in den Daten darstellen. Bevor Sie also die Ausreißer bearbeiten, sollten Sie sie sich genauer ansehen, um herauszufinden, was sie verursacht haben könnte.
3. Sie sollten nach der Datenerhebung und nicht vorher entscheiden, ob Sie die Daten gewinnen möchten oder nicht. Sie sollten prüfen, ob es tatsächlich extreme Ausreißer gibt, bevor Sie sich für eine Winsorisierung entscheiden. Wenn keine extremen Ausreißer vorhanden sind, ist eine Winsorisierung möglicherweise nicht erforderlich.
Tutorial: Daten in Excel winsorisieren
In diesem Tutorial finden Sie ein schrittweises Beispiel für die Winsorisierung eines Datensatzes in Excel.