특이치가 있는 상자 그림을 읽는 방법(예 포함)


상자 그림은 다음을 포함하는 데이터 세트의 5자리 요약을 표시하는 그림 유형입니다.

  • 최소값
  • 첫 번째 사분위수(25번째 백분위수)
  • 중앙값
  • 3분위수(75번째 백분위수)
  • 최대값

상자 그림을 만들려면 먼저 1분위수부터 3분위수까지 상자를 그립니다.

다음으로 중앙값에 수직선을 그립니다.

마지막으로 사분위수의 “수염”을 최소값과 최대값까지 그립니다.

대부분의 통계 소프트웨어에서 관찰은 다음 두 가지 요구 사항 중 하나를 충족하는 경우 이상값으로 정의됩니다.

  • 관측치는 첫 번째 사분위수 아래의 사분위수 범위(Q1)의 1.5배입니다.
  • 관측치는 3사분위수(Q3) 위의 사분위간 범위의 1.5배입니다.

데이터 세트에 이상치가 존재하는 경우 일반적으로 상자 그림에서 수염 범위 밖의 작은 점으로 레이블이 지정됩니다.

상자 그림에서 이상값을 읽는 방법

이런 일이 발생하면 상자 그림의 “최소” 값과 “최대” 값에는 각각 Q1 – 1.5*IQR 및 Q3 + 1.5*IQR 값이 할당됩니다.

다음 예에서는 이상값이 있거나 없는 상자 그림을 해석하는 방법을 보여줍니다.

예: 이상값이 있는 상자 그림 해석

서로 다른 두 팀의 농구 선수가 득점한 점수 분포를 시각화하기 위해 다음과 같은 두 개의 상자 그림을 생성한다고 가정합니다.

팀 A의 왼쪽 상자 그림에는 최소 또는 최대 수염 외부에 작은 점이 없기 때문에 이상값이 없습니다.

그러나 팀 B에 대한 올바른 상자 그림에는 “최대” 값 위에 하나의 특이치가 있고 “최소” 값 아래에 하나의 특이치가 있습니다.

다음은 B팀의 “포인트” 변수 분포에 대한 현재 5자리 요약입니다.

  • 최소값: 1.1
  • 1분위수: 10.5
  • 중앙값: 12.7
  • 3분위수: 15.6
  • 최대값: 23.5

잠재적 이상치의 한계를 계산하는 방법은 다음과 같습니다.

사분위수 척도 : 제3사분위수 – 제1사분위수 = 15.6 – 10.5 = 5.1

하한 : Q1 – 1.5*IQR = 10.5 – 1.5*5.1 = 2.85

상한 : Q3 + 1.5*IQR = 15.6 + 1.5*5.1 = 23.25

상자 그림의 최소값과 최대값에 대한 수염은 2.8523.25 에 배치됩니다.

따라서 값이 1.123.5 인 관측치는 모두 하한과 상한을 벗어나므로 상자 그림에서 이상값으로 간주됩니다.

보너스 : R 프로그래밍 언어로 두 개의 상자 그림을 만드는 데 사용한 정확한 코드는 다음과 같습니다.

 library (ggplot2)

#make this example reproducible 
set. seeds (2)

#create data frame
df <- data. frame (Team = factor(rep(c("A", "B"), each = 200)), 
                 Points = c(rnorm(200, mean = 15, sd = 3), 
                           rnorm(200, mean = 12, sd = 4))) 

#create box plots
ggplot(df, aes(x = Team, y = Points)) +
  stat_boxplot(geom = " errorbar ", width = 0.5) +  
  geom_boxplot() 

#calculate summary statistics for each team
tapply(df$Points, df$Team, summary)

추가 리소스

다음 자습서에서는 상자 그림에 대한 추가 정보를 제공합니다.

상자 그림을 비교하는 방법
상자 그림에서 비대칭성을 식별하는 방법
상자 그림의 사분위수 범위를 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다