언제 상자 그림을 사용해야 합니까? (시나리오 3개)


상자 그림은 다음을 포함하는 데이터 세트의 5자리 요약을 표시하는 그림 유형입니다.

  • 최소값
  • 첫 번째 사분위수(25번째 백분위수)
  • 중앙값
  • 3분위수(75번째 백분위수)
  • 최대값

우리는 모든 데이터 세트에 대한 상자 그림을 만들기 위해 세 가지 간단한 단계를 사용합니다.

  • 1. 1분위수부터 3분위수까지 상자를 그립니다.
  • 2. 중앙값에 수직선을 그립니다.
  • 3. 사분위수의 “수염”을 최소값과 최대값으로 그립니다.

일반적으로 다음 세 가지 시나리오 중 하나에서 상자 그림을 만듭니다.

시나리오 1: 데이터 세트의 값 분포를 시각화합니다.

상자 그림을 사용하면 데이터 세트의 값 분포를 빠르게 시각화하고 5개의 수치 요약 값이 어디에 있는지 확인할 수 있습니다.

시나리오 2: 두 개 이상의 분포를 비교합니다.

병렬 상자 그림을 사용하면 두 개 이상의 분포 간의 차이를 시각화하고 중앙값과 분포 간 값의 분포를 비교할 수 있습니다.

시나리오 3: 이상값을 식별합니다.

상자 그림에서 이상값은 일반적으로 각 수염 너머로 확장되는 작은 원으로 표시됩니다. 관찰은 다음 기준 중 하나를 충족하는 경우 이상값으로 정의됩니다.

  • 관측치는 Q1 – 1.5*(사분위간 범위)보다 작습니다.
  • 관측치는 Q3 + 1.5*(사분위간 범위)보다 큽니다.

상자 그림을 생성하면 분포에 특이치가 있는지 여부를 빠르게 확인할 수 있습니다.

다음 예에서는 각 시나리오에서 상자 그림을 사용하는 방법을 보여줍니다.

시나리오 1: 데이터 세트의 값 분포 시각화

농구 코치가 팀 선수들이 득점한 점수 분포를 시각화하려고 하여 다음과 같은 상자 그림을 생성한다고 가정합니다.

이 상자 그림을 기반으로 그는 다음 값을 빠르게 확인할 수 있습니다.

  • 최소: 5
  • T1(1분위수): 약 8
  • 중앙값: 약 13
  • T3(3분위수): 약 18
  • 최대: 25

이를 통해 코치는 선수들이 득점한 점수가 5~25점이고, 평균 점수가 약 13점이며, 선수 중 50%가 게임당 약 8~18점을 득점한다는 사실을 빠르게 확인할 수 있습니다.

시나리오 2: 둘 이상의 분포 비교

스포츠 분석가가 서로 다른 세 팀의 농구 선수가 득점한 점수 분포를 비교하고 다음 상자 그림을 생성한다고 가정해 보겠습니다.

이 그래프를 사용하여 그는 C팀의 중간 점수가 가장 높고 A팀의 중간 점수가 가장 낮다는 것을 빠르게 확인할 수 있습니다.

또한 그는 B팀의 상자 그림에 가장 긴 상자가 있기 때문에 B팀의 점수 분포가 가장 크다는 것을 빠르게 확인할 수 있습니다.

시나리오 3: 이상값 식별

농구 코치가 자신의 선수 중 한 명이 득점 점수 측면에서 이상치인지 알고 싶어한다고 가정해 보겠습니다. 그는 선수들이 득점한 점수 분포를 시각화하기 위해 다음 상자 그림을 만들기로 결정했습니다.

이 도표를 사용하여 코치는 도표 상단에 있는 작은 점이 특이치를 나타냄을 알 수 있습니다.

구체적으로, 선수 중 한 명이 약 50점을 획득했는데, 이는 득점한 다른 모든 점수와 비교하여 이상치로 간주됩니다.

추가 리소스

다음 자습서에서는 실제로 상자 그림을 사용하는 방법에 대한 자세한 설명을 제공합니다.

상자 그림의 사분위수 범위(IQR)를 찾는 방법
상자 그림에서 비대칭성을 식별하는 방법
상자 그림을 비교하는 방법

다음 자습서에서는 다양한 통계 소프트웨어에서 상자 그림을 만드는 방법을 설명합니다.

Google 스프레드시트에서 상자 그림을 만드는 방법
SPSS에서 상자 그림을 만드는 방법
Excel에서 병렬 상자 그림을 만드는 방법
R에서 병렬 상자 플롯을 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다