Jak winsorize dane: definicja i przykłady


Winsoryzacja danych oznacza ustawienie skrajnych wartości odstających równych określonemu percentylowi danych.

Na przykład 90% winsoryzacja ustawia wszystkie obserwacje powyżej 95. percentyla na wartość na 95. percentylu, a wszystkie obserwacje poniżej 5. percentyla są równe wartości na 5. percentylu.

Rzeczywiście, wygrywanie danych oznacza zmianę ekstremalnych wartości zbioru danych na mniej ekstremalne wartości.

Przykład: Jak Winsorize danych

Załóżmy, że mamy następujący zbiór danych:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Aby przeprowadzić 90% winsoryzację tego zbioru danych, najpierw znajdziemy 5. i 95. percentyl, które okazują się być następujące:

  • 5. percentyl: 12,35
  • 95. percentyl: 92,05

Ustawilibyśmy wtedy wszystkie wartości mniejsze niż 12,35 na 12,35, a wszystkie wartości większe niż 92,05 na 92,05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

W tym przypadku wartość 3 stała się 12,35 , a wartość 98 stała się 92,05 .

Dlaczego dane Winsorize?

Średnia i odchylenie standardowe to dwie powszechne metody pomiaru, odpowiednio , położenia środka zbioru danych i rozkładu obserwacji w zbiorze danych.

Jednakże na obie te miary mogą mieć wpływ skrajne wartości odstające. Zatem winsoryzacja danych pozwala nam zdefiniować skrajne wartości odstające równe mniej ekstremalnym wartościom.

Często pozwala nam to uzyskać dokładniejszy obraz średniej i odchylenia standardowego zbioru danych.

Winsorize ze śliwkowego złota

Innym powszechnym sposobem radzenia sobie z wartościami odstającymi jest usunięcie ich ze zbioru danych, co oznacza ich całkowite usunięcie.

Rozważmy na przykład poprzedni zbiór danych:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Gdybyśmy chcieli zmniejszyć wartości poniżej 5. percentyla lub powyżej 95. percentyla, po prostu usunęlibyśmy wartości 3 i 98 .

Oto kilka praktycznych zasad dotyczących stosowania krojenia lub winsoryzacji:

Przycinanie: Przycinanie wartości danych ma sens wtedy, gdy niektóre wartości wydają się zupełnie nieuzasadnione, czyli są wynikiem błędu przy wprowadzaniu danych.

Winsoryzacja: Winsoryzacja danych ma sens, gdy chcemy zachować obserwacje skrajne, ale nie chcemy ich brać zbyt dosłownie.

Środki ostrożności dotyczące winsoryzacji danych

Decydując się na pozyskiwanie danych, należy pamiętać o kilku kwestiach:

1. Jeśli nie ma skrajnych wartości odstających, wygrywanie danych spowoduje tylko nieznaczną zmianę najmniejszych i największych wartości. Generalnie nie jest to dobry pomysł, ponieważ oznacza, że po prostu zmieniamy wartości danych wyłącznie w celu ich zmiany.

2. Wartości odstające mogą reprezentować interesujące przypadki graniczne w danych. Dlatego przed edycją wartości odstających warto przyjrzeć się im bliżej, aby zobaczyć, co mogło je spowodować.

3. Decyzję o winsoryzacji danych powinieneś podjąć po ich zebraniu, a nie przed. Przed podjęciem decyzji o winsoryzacji powinieneś sprawdzić, czy rzeczywiście istnieją jakieś skrajne wartości odstające. Jeśli nie występują żadne skrajne wartości odstające, winsoryzacja może być niepotrzebna.

Samouczek: Winsorize danych w Excelu

W tym samouczku znajdziesz przykładowy krok po kroku sposób Winsorize zestawu danych w programie Excel.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *