실제 생활에서 이상치의 5가지 예


이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 데이터 포인트입니다.

데이터 포인트가 세 번째 사분위수 위 사분위수 범위의 1.5배이거나 데이터 세트의 첫 번째 사분위수 아래 사분위수 범위의 1.5배인 경우 데이터 포인트를 이상값으로 정의하는 경우가 많습니다.

참고 : 사분위수 범위는 데이터 집합의 세 번째 사분위수(75번째 백분위수)와 첫 번째 사분위수(25번째 백분위수) 간의 차이입니다.

다음 시나리오에서는 실제 상황의 이상값 예를 보여줍니다.

예시 1: 소득 이상치

이상값이 자주 나타나는 구체적인 시나리오는 소득 분배의 시나리오입니다.

예를 들어, 특정 국가에서 연간 소득의 25번째 백분위수(Q1)는 연간 $15,000이고 75번째 백분위수(Q3)는 연간 $120,000일 수 있습니다.

사분위간 범위(IQR)는 $120,000 – $15,000 = $105,000로 계산됩니다.

즉, 소득이 다음 한도를 벗어나는 사람은 누구나 이상치로 간주됩니다.

  • 하한 : Q1 – 1.5*IQR = $15,000 – 1.5*$105,000 = -$142,500
  • 상한가 : Q3 + 1.5*IQR = $120,000 + 1.5*$105,000 = $277,500

순자산이 수조 달러에 달하는 Elon Musk와 같은 사람은 연간 소득 측면에서 특이치로 간주됩니다.

참고 : 하한을 초과하는 이상치 값이 항상 의미 있는 것은 아닙니다. 예를 들어, 마이너스 연간 소득을 얻을 수는 없습니다.

예 2: 무호흡 이상치

이상값이 자주 나타나는 또 다른 실제 시나리오는 무호흡증입니다.

예를 들어, 개인이 숨을 참을 수 있는 시간에 대한 25번째 백분위수(Q1)는 약 15초인 반면, 75번째 백분위수(Q3)는 약 75초입니다.

사분위간 범위(IQR)는 다음과 같이 계산됩니다: 75 – 15 = 60.

즉, 다음 한도를 벗어나 숨을 참을 수 있는 사람은 누구나 이상치로 간주됩니다.

  • 하한 : Q1 – 1.5*IQR = 15 – 1.5*60 = -75초
  • 상한 : Q3 + 1.5*IQR = 75 + 1.5*60 = 165초

10분 이상 숨을 참을 수 있는 모든 프리다이버는 165초보다 훨씬 오랫동안 숨을 참을 수 있기 때문에 이상치로 간주됩니다.

예시 3: 동물 크기의 특이치

이상값이 자주 나타나는 또 다른 실제 시나리오는 동물 크기입니다.

예를 들어, 말 키의 25번째 백분위수(Q1)는 약 5피트이고 75번째 백분위수(Q3)는 약 5.5피트입니다.

사분위간 범위(IQR)는 다음과 같이 계산됩니다: 5.5 – 5 = 0.5피트.

이는 크기가 다음 제한을 벗어나는 모든 말은 이상치로 간주된다는 것을 의미합니다.

  • 하한 : Q1 – 1.5*IQR = 5 – 1.5*0.5 = 4.25피트
  • 상한 : Q3 + 1.5*IQR = 5 + 1.5*0.5 = 5.75피트

기네스 세계 기록 에 따르면, 역대 가장 키가 큰 말의 기록은 7피트가 조금 넘습니다. 이는 상한선인 5.75피트보다 높기 때문에 이 말은 분명히 이상치로 간주됩니다.

예시 4: 영화표 판매의 특이치

이상값이 자주 나타나는 또 다른 실제 시나리오는 영화 티켓 판매입니다.

예를 들어, 총 영화 티켓 판매량의 25번째 백분위수(Q1)는 약 200만 달러이고, 75번째 백분위수(Q3)는 약 1,500만 달러입니다.

사분위간 범위(IQR)는 다음과 같이 계산됩니다: 1,500만 달러 – 200만 달러 = 1,300만 달러.

즉, 총 매출이 다음 한도를 벗어나는 모든 영화는 이상값으로 간주됩니다.

  • 하한 : T1 – 1.5*IQR = 200만 달러 – 1.5*1,300만 달러 = -1,750만 달러
  • 상한 : T3 + 1.5*IQR = 1,500만 달러 + 1.5*1,300만 달러 = 3,450만 달러

대부분의 스타워즈 영화는 3,450만 달러를 훨씬 넘는 수익을 올렸으며 티켓 판매 측면에서 이례적인 작품이 되었습니다.

예시 5: 게임당 득점 포인트의 이상값

이상값이 자주 나타나는 또 다른 실제 영역은 프로 스포츠입니다.

예를 들어, NBA 선수가 득점한 점수의 25번째 백분위수(Q1)는 게임당 약 5점이고, 75번째 백분위수(Q3)는 게임당 약 15점입니다.

사분위간 범위(IQR)는 다음과 같이 계산됩니다: 15 – 5 = 10점.

즉, 평균이 다음 한도를 벗어나는 플레이어는 이상치로 간주됩니다.

  • 하한 : Q1 – 1.5*IQR = 5 – 1.5*10 = -10 포인트
  • 상한 : Q3 + 1.5*IQR = 15 + 1.5*10 = 30점

많은 NBA 시즌 에서 가장 높은 득점을 올린 선수는 일반적으로 경기당 30득점을 조금 넘는 득점을 올리므로 그를 아웃라이어로 만듭니다.

추가 리소스

다음 튜토리얼에서는 다양한 통계 소프트웨어를 사용하여 데이터 세트에서 이상값을 찾는 방법을 설명합니다.

Excel에서 이상값을 찾는 방법
R에서 이상값을 찾는 방법
Python에서 이상값을 찾는 방법
SPSS에서 이상값을 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다