데이터를 winsorize하는 방법: 정의 및 예


데이터를 윈저화하는 것은 데이터의 지정된 백분위수와 동일하게 극단적인 이상값을 설정하는 것을 의미합니다.

예를 들어, 90% 윈저화는 95번째 백분위수 위의 모든 관측치를 95번째 백분위수 값과 동일하게 설정하고 5번째 백분위수 아래의 모든 관측치를 5번째 백분위수 값과 동일하게 설정합니다.

실제로 데이터를 윈소화한다는 것은 데이터 세트의 극단값을 덜 극단값으로 변경하는 것을 의미합니다.

예: 데이터를 Winsorize하는 방법

다음과 같은 데이터 세트가 있다고 가정합니다.

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

이 데이터세트에 대해 90% 윈저화를 수행하려면 먼저 5번째 백분위수와 95번째 백분위수를 찾아야 합니다. 결과는 다음과 같습니다.

  • 5번째 백분위수: 12.35
  • 95번째 백분위수: 92.05

그런 다음 12.35보다 작은 모든 값을 12.35로 설정하고 92.05보다 큰 모든 값을 92.05로 설정합니다.

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

이 경우 값 3은 12.35 가 되고 값 98은 92.05 가 됩니다.

데이터를 Winsorize하는 이유는 무엇입니까?

평균 및 표준 편차는 각각 데이터 세트의 중심 위치 와 데이터 세트의 관측치 분포를 측정하는 두 가지 일반적인 방법입니다.

그러나 이 두 가지 측정값은 모두 극단적인 특이치의 영향을 받을 수 있습니다. 따라서 데이터를 윈저화하면 덜 극단적인 값과 동일한 극단적인 이상값을 정의할 수 있습니다.

이를 통해 데이터 세트의 평균 및 표준 편차를 보다 정확하게 볼 수 있습니다.

플럼 골드 윈소라이즈

이상값을 처리하는 또 다른 일반적인 방법은 데이터세트에서 이상값을 제거하는 것입니다. 즉, 이상값을 완전히 제거하는 것입니다.

예를 들어 이전 데이터세트를 고려해 보세요.

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

5번째 백분위수 아래 또는 95번째 백분위수 이상의 값을 줄이려면 간단히 398 값을 제거하면 됩니다.

다음은 슬라이싱 또는 Winsorization을 사용하는 경우에 대한 몇 가지 경험 법칙입니다.

트리밍: 일부 값이 완전히 불합리해 보일 때, 즉 데이터 입력 오류의 결과인 경우 데이터 값을 트리밍하는 것이 합리적입니다.

Winsorization: 극단적인 관측치를 유지하고 싶지만 너무 문자 그대로 받아들이고 싶지 않을 때 데이터를 Winsorize하는 것이 합리적입니다.

데이터의 윈저화에 관한 주의사항

다음은 데이터 획득을 결정할 때 명심해야 할 몇 가지 사항입니다.

1. 극단적인 특이치가 없는 경우 데이터를 윈저화하면 가장 작은 값과 가장 큰 값만 약간 변경됩니다. 이는 단순히 데이터 값을 변경하려는 목적으로만 데이터 값을 변경한다는 의미이므로 일반적으로 좋은 생각이 아닙니다.

2. 이상치는 데이터의 흥미로운 극단적 사례를 나타낼 수 있습니다. 따라서 이상값을 편집하기 전에 이상값을 자세히 살펴보고 원인이 무엇인지 확인하는 것이 좋습니다.

3. 데이터를 수집하기 전이 아닌 데이터 수집 후에 윈저화할지 여부를 결정해야 합니다. Winsorize를 결정하기 전에 실제로 극단적인 특이치가 있는지 확인해야 합니다. 극단적인 이상값이 없으면 윈저화가 불필요할 수 있습니다.

튜토리얼: Excel에서 데이터 Winsorize

Excel에서 데이터 집합을 윈저화하는 방법에 대한 단계별 예는 이 자습서를 참조하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다