히스토그램을 비교하는 방법(예제 포함)


히스토그램은 데이터 집합의 값 분포를 시각화할 수 있는 차트 유형입니다.

X축은 데이터 세트의 값을 나타내고 Y축은 각 값의 빈도를 나타냅니다.

히스토그램을 사용하면 데이터 세트의 값 분포를 빠르게 이해할 수 있으므로 유용합니다. 또한 서로 다른 두 데이터 세트를 비교하는 데에도 유용합니다.

두 개 이상의 히스토그램을 비교할 때 세 가지 질문에 답할 수 있습니다.

1. 중앙값은 어떻게 비교됩니까?

중앙값이 각 히스토그램의 중앙 근처에 있다고 대략적으로 추정할 수 있으므로 분포의 중앙값을 비교할 수 있습니다.

2. 분산은 어떻게 비교됩니까?

어느 히스토그램이 더 많이 퍼져 있는지 시각적으로 확인할 수 있어 어느 분포의 값이 더 많이 분산되어 있는지 알 수 있습니다.

3. 비대칭성은 어떻게 비교됩니까?

히스토그램의 플롯 왼쪽에 “꼬리”가 있으면 음의 편향이 있다고 합니다. 반대로, 히스토그램의 플롯 오른쪽에 “꼬리”가 있으면 양의 편향이 있다고 합니다. 각 히스토그램을 시각적으로 확인하여 왜도를 비교할 수 있습니다.

다음 예에서는 두 개의 서로 다른 히스토그램을 비교하고 이 세 가지 질문에 답하는 방법을 보여줍니다.

예: 히스토그램 비교

200명의 학생이 시험을 준비하기 위해 한 가지 학습 방법을 사용하고 다른 200명의 학생이 동일한 시험을 준비하기 위해 다른 학습 방법을 사용한다고 가정합니다.

각 학생 그룹의 시험 결과를 비교하기 위해 다음 히스토그램을 생성한다고 가정합니다.

이 히스토그램을 비교하고 다음 세 가지 질문에 답할 수 있습니다.

1. 중앙값은 어떻게 비교됩니까?

단순히 히스토그램을 보는 것만으로는 각 분포의 정확한 중앙값을 알 수 없지만 방법 1을 사용한 학생들의 시험 중앙값이 방법 1을 사용한 학생들의 시험 중앙값보다 높다는 것은 분명합니다. 방법 2 .

방법 1의 중앙값은 약 84이고 방법 2의 중앙값은 약 78이라고 추정할 수 있습니다.

2. 분산은 어떻게 비교됩니까?

방법 2의 히스토그램 값은 방법 1에 비해 훨씬 더 분산되어 있는데, 이는 방법 2를 사용한 학생들의 시험 결과에 훨씬 더 큰 분산이 있음을 나타냅니다.

3. 비대칭성은 어떻게 비교됩니까?

히스토그램을 보면 방법 1의 시험 점수 분포가 히스토그램 오른쪽으로 확장된 “꼬리”로 표시된 것처럼 오른쪽으로 약간 치우쳐 있는 것으로 보입니다.

그러나 방법 2의 시험 결과 분포에는 “꼬리”가 없는 것으로 보입니다. 이는 분포가 거의 치우치지 않거나 치우치지 않음을 나타냅니다.

보너스 : R에서 두 개의 히스토그램을 생성하는 데 사용한 코드는 다음과 같습니다.

 library (ggplot2)

#make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (method=rep(c(' Method 1 ', ' Method 2 '), each= 200 ),
                 Score=c(rnorm( 200 , mean= 84 , sd= 2 ),
                         rnorm( 200 , mean= 78 , sd= 4 )))

#create histogram of scores for each method
ggplot(df, aes(x=Score)) +
  geom_histogram(fill=' steelblue ', color=' black ') +
  facet_wrap(.~method, nrow= 2 ) +
  labs(title=' Exam Scores by Study Method ')

추가 리소스

다음 자습서에서는 히스토그램을 사용하여 다른 일반적인 작업을 수행하는 방법을 설명합니다.

히스토그램의 평균과 중앙값을 추정하는 방법
히스토그램의 표준편차를 추정하는 방법
히스토그램의 모양을 설명하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다