전체 가이드: 데이터의 이상값을 제거해야 하는 경우


이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값 입니다.

이상값은 분석 결과에 영향을 미칠 수 있으므로 문제가 될 수 있습니다.

그러나 비정상적인 사례나 희귀한 특성을 가진 개인을 밝힐 수 있으므로 연구하는 데이터에 대한 통찰력을 제공할 수도 있습니다.

모든 분석에서는 이상값을 제거할지 아니면 유지할지 결정해야 합니다.

다행히도 다음 순서도를 사용하여 결정을 내리는 데 도움을 받을 수 있습니다.

데이터의 이상값을 제거할지 여부를 결정하는 순서도

순서도의 각 질문을 자세히 살펴보겠습니다.

이상치는 데이터 입력 오류의 결과입니까?

때때로 데이터 세트의 이상값은 단순히 데이터 입력 오류의 결과입니다.

예를 들어, 생물학자가 특정 식물종의 키에 대한 데이터를 수집하고 다음 데이터를 기록한다고 가정해 보겠습니다.

  • 6.83인치
  • 7.51인치
  • 5.21인치
  • 5.84인치
  • 7.83인치
  • 755인치
  • 6.53인치
  • 6.31인치
  • 5.91인치

분명히 755인치에 대한 항목은 이상치이며 데이터 입력 오류로 인한 결과일 가능성이 높습니다. 높이는 7.55인치였어야 했지만 잘못 입력되었을 가능성이 큽니다.

만약 생물학자가 이 관찰을 유지하고 표본에 있는 식물의 평균 높이와 같은 기술 통계를 계산한다면, 이 관찰은 결과를 크게 왜곡하고 실제 평균 식물 높이에 대한 부정확한 그림을 제공할 것입니다.

이 시나리오(및 이와 유사한 시나리오)에서는 이 이상값이 오류이고 분석에 포함할 합법적인 데이터 포인트가 아니기 때문에 데이터 세트에서 이 이상값을 제거하는 것이 합리적입니다.

이상치가 분석 결과에 큰 영향을 미치나요?

관측치가 실제 이상치이고 단순히 데이터 입력 오류의 결과가 아닌 경우, 이상치가 분석 결과에 영향을 미치는지 여부를 조사해야 합니다.

예를 들어, 생물학자가 비료와 식물 높이 사이의 관계를 연구한다고 가정해 보겠습니다. 그녀는 비료를 예측 변수로 사용하고 식물 키를 반응 변수 로 사용하여 단순 선형 회귀 모델을 적합시키려고 합니다.

12개 공장에 대해 다음 데이터를 수집합니다.

마지막 관찰이 비정상임이 분명합니다.

그러나 이 데이터 세트를 시각화하기 위해 산점도를 생성하면 이상값을 포함하는지 여부에 관계없이 회귀선이 크게 변하지 않는다는 것을 알 수 있습니다.

이 시나리오에서는 이상값이 실제로 선형 회귀 모델의 가정을 위반하지 않으므로 이를 데이터세트에 유지할 수 있습니다.

그러나 데이터에 다음과 같은 특이치가 있다고 가정해 보겠습니다.

분명히 이 이상값은 회귀선에 큰 영향을 미치므로 이상값이 있는 회귀 모델과 없는 회귀 모델을 모두 적용한 다음 두 회귀 모델의 결과를 보고할 수 있습니다.

이상치가 분석에서 만들어진 가정에 영향을 줍니까?

이상치가 데이터 입력 오류의 결과가 아니고 분석 결과에 큰 영향을 미치지 않는 경우, 이상치가 분석에서 만들어진 가설에 영향을 미치는지 여부를 물어봐야 합니다. 분석.

가정에 영향을 주지 않는다면 데이터에 그대로 보관하면 됩니다.

그러나 이것이 가정에 영향을 미치는 경우 몇 가지 옵션이 있습니다.

1. 제거하세요. 데이터에서 이를 간단히 제거하고 결과를 보고할 때 기록해 둘 수 있습니다.

2. 데이터 변환을 수행합니다. 이상값을 제거하는 대신 데이터에 대한 변환을 수행해 볼 수 있습니다. 예를 들어 데이터에 있는 모든 값의 제곱근이나 로그를 취하는 것입니다. 이는 이상값을 줄이고 데이터를 보다 정규 분포로 만드는 것으로 나타났습니다.

데이터의 이상값을 처리하기로 결정한 방법에 관계없이 추론과 함께 분석 결과에 대한 결정을 기록해야 합니다.

추가 리소스

다음 튜토리얼에서는 다양한 통계 소프트웨어에서 이상값을 찾아 제거하는 방법을 설명합니다.

Excel에서 이상값을 찾는 방법
Google 스프레드시트에서 이상값을 찾는 방법
R에서 이상값을 찾는 방법
Python에서 이상값을 찾는 방법
SPSS에서 이상값을 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다