비정형 값(이상값)

이 문서에서는 이상값이 무엇인지, 그리고 이상값을 계산하는 방법에 대해 설명합니다. 또한 온라인 계산기를 사용하여 모든 데이터 샘플의 이상값을 계산할 수 있습니다.

이상치란 무엇입니까?

통계에서 이상치 ( outliers ) 또는 이상치(outliers)라고도 불리는 이상치(outliers) 는 나머지 데이터 세트와 크게 다른 값입니다. 즉, 이상값은 표본의 나머지 값과 매우 다른 비정상적인 값입니다.

이상값은 통계 측정값 계산에 큰 영향을 미칠 수 있으므로 표본에서 이상값을 식별하는 것이 중요합니다.

예를 들어 데이터 계열 [1, 3, 5, 2, 79, 4, 8, 6]이 있는 경우 숫자 79는 분명히 이상치입니다. 그 값이 나머지 데이터보다 매우 높기 때문입니다. 이 경우 이상값을 포함한 평균은 13.5이고, 이상값이 없는 평균은 4.14입니다. 보시다시피, 단일 이상값은 이미 통계 측정 결과에 큰 영향을 미칩니다.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

일반적으로 이상값은 나머지 데이터와 격리되어 있기 때문에 산점도에서 쉽게 구별됩니다. 다음 산점도를 보면 이상값이 나머지 값과 매우 분리되어 있습니다.

특이치 또는 기타 산점도

👉 아래 계산기를 사용하여 모든 데이터 세트에 대한 이상값을 찾을 수 있습니다.

이상값을 계산하는 방법

데이터 샘플에서 이상값을 계산하려면 다음 단계를 따라야 합니다.

  1. 데이터세트의 사분위수를 계산합니다.
  2. 데이터의 사분위간 범위를 계산합니다.
  3. 비정형 값(이상값)은 다음 조건 중 하나를 충족하는 값으로 간주됩니다.

다음 상자 그림 에서는 이 기준에 따라 그래픽으로 표현된 두 가지 이상값을 볼 수 있습니다.

상자 그림 특이치

참고: 이상치로 간주되는 데이터의 한계를 결정하는 데는 몇 가지 기준이 있다는 점을 명심하십시오. 이 글에서는 가장 많이 사용되는 Tukey 테스트 기준을 참고로 삼았습니다.

특이치의 예

이상치의 정의를 고려하여 이 섹션에서는 데이터 계열에서 이상치를 식별하는 방법에 대한 실제 예를 살펴보겠습니다.

  • 다음 통계 데이터 세트에서 이상값 또는 이상값을 계산합니다.

먼저 데이터세트의 3분위수를 계산합니다.

Q_1=4,06

Q_2=4,38

Q_3=4,66

3분위수를 찾으면 3분위수에서 1분위수를 빼서 사분위수 범위를 찾습니다.

IQR=Q_3-Q_1=4,66-4,06=0,6

이제 이상치에 의해 설정된 한계를 계산합니다. 이를 위해 위 섹션에서 설명한 공식을 사용합니다.

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

따라서 값 중 하나라도 3.16보다 작으면 이상치입니다. 마찬가지로 값이 5.56보다 크면 이상치입니다.

결론적으로 이 경우 3.02는 3.16보다 작고 5.71은 5.56보다 크기 때문에 두 가지 극단값이 있습니다.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

이상치 계산기

이상값이 있는 경우 다음 계산기에 통계 데이터 세트를 입력하여 이상값을 계산합니다. 데이터는 공백으로 구분해야 하며 소수점 구분 기호로 마침표를 사용하여 입력해야 합니다.

이상치의 원인

이상치가 발생하는 원인은 여러 가지가 있으며 그 중 가장 일반적인 원인은 다음과 같습니다.

  • 측정에 사용된 장치가 고장났거나 사고가 발생했습니다.
  • 측정된 부품에 비정상적인 원인으로 인해 결함이 발생했습니다.
  • 데이터 전송 또는 전사 중에 오류가 발생했습니다.
  • 사람의 실수가 있었습니다. 어떤 예방 조치를 취하더라도 인적 오류가 완전히 불가피한 것은 아니므로 비정상적인 값이 여전히 존재할 수 있습니다.

이것이 가장 일반적인 원인이지만 분명히 이유는 무엇이든 될 수 있습니다. 마찬가지로, 수많은 관찰을 통해 통계적 연구가 수행될 때 일부 이상값이 나타나는 것이 정상이라는 점을 고려해야 합니다.

이상치로 무엇을 해야 할까요?

이상치를 만났을 때 흔히 하는 질문은 이를 어떻게 해야 하는가입니다. 표본에서 특이치를 제거해야 합니까?

이상치는 세트의 나머지 부분과 유사하지 않은 데이터이기 때문에 항상 제거되어야 한다고 믿어집니다. 그러나 이상값이 일부 통계 측정 결과에 큰 영향을 미치더라도 항상 제거해야 한다는 의미는 아닙니다.

일반적으로 이상값은 이상 현상의 원인이 실제로 정당하다는 것을 아는 경우에만 제거되어야 하며 , 따라서 이러한 이상값은 연구 중인 내용과 일치하지 않는 관측값입니다.

극단값이 통계 지표에 더 많은 영향을 미치기 때문에 이는 작은 표본 크기에서 특히 중요합니다.

예를 들어, 품질 관리를 위해 제품의 한 부분의 길이를 측정하는 경우, 논리적으로 다른 유형의 제품이 갑자기 등장하여 동일한 부분을 측정한다면 측정된 값은 이전 값과 매우 다르며 아마도 이상치가 되십시오. 이 경우 이상치의 원인이 알려져 있고, 측정된 데이터가 분석 대상 모집단의 일부가 아니라는 것이 알려져 있기 때문에 이상치를 배제할 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다