도트 플롯과 히스토그램: 차이점은 무엇입니까?


데이터 세트의 값 분포를 시각화하기 위해 일반적으로 사용되는 두 가지 플롯은 도트 플롯히스토그램 입니다.

도트 플롯은 x축을 따라 개별 데이터 값을 표시하고 점을 사용하여 각 개별 값의 빈도를 나타냅니다.

히스토그램은 x축을 따라 데이터 범위를 표시하고 직사각형 막대를 사용하여 각 범위에 속하는 값의 빈도를 나타냅니다.

다음 예에서는 동일한 데이터 세트에 대해 점도표와 히스토그램을 만드는 방법을 보여줍니다.

예: 동일한 데이터 세트에 대한 점도표 및 히스토그램 생성

18개의 값을 가진 다음 데이터 세트가 있다고 가정합니다.

데이터: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10

이 데이터 세트의 도트 플롯은 다음과 같습니다.

x축은 개별 데이터 값을 나타내고, y축은 각 값의 빈도를 나타냅니다.

예를 들어, “2”라는 값이 위에 세 개의 점이 있기 때문에 데이터 세트에 세 번 나타나는 것을 볼 수 있습니다. 마찬가지로 값 “3”은 그 위에 점이 하나만 있기 때문에 한 번만 나타나는 것을 볼 수 있습니다.

이 데이터 세트의 히스토그램은 다음과 같습니다.

깔끔해요.

예를 들어 0과 2 사이에 7개의 값이 있고, 2와 4 사이에 2개의 값이 있다는 것을 알 수 있습니다.

보너스 : 궁금한 분들을 위해 다음 R 코드를 사용하여 위에 표시된 도트 플롯과 히스토그램을 만들었습니다.

 #define dataset
data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10)

#create dot plot
stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5,
           col = "steelblue", main = "Dot Plot",
           xlab = "Data Values", ylab="Frequency")

#create histogram
hist(data, col='steelblue', main='Histogram', xlab='Data Values')

점도표 또는 히스토그램: 어느 것을 사용해야 합니까?

앞서 언급했듯이 도트 플롯과 히스토그램을 사용하여 데이터 세트의 값 분포를 시각화할 수 있습니다.

경험상, 우리는 데이터 세트가 작을 때 일반적으로 도트 플롯을 사용합니다. 왜냐하면 이를 통해 각 개별 값이 나타나는 횟수를 정확하게 확인할 수 있기 때문입니다.

반대로, 대규모 데이터 세트의 각 개별 값을 나타내는 점을 만드는 것이 지루하기 때문에 일반적으로 데이터 세트가 클 때 히스토그램을 사용합니다 .

히스토그램 사용의 유일한 단점은 각 개별 값이 나타나는 횟수를 정확히 알 수 없다는 것입니다.

예를 들어 이전 히스토그램에서 0과 2 사이에 7개의 값이 있다는 것을 보았지만 1인 값이 몇 개이고 2인 값이 몇 개인지 정확히 알 수 없습니다.

분포의 일반적인 “모양”을 이해하고 싶다면 데이터 세트의 개별 값을 모르더라도 일반적으로 중요하지 않습니다.

또한 개별 값을 모르기 때문에 히스토그램만 보는 것만으로는 정확한 중앙값이나 평균을 계산할 수 없다는 점을 명심하세요.

추가 리소스

다음 자습서에서는 히스토그램에 대한 추가 정보를 제공합니다.

평균 및 중앙값 히스토그램을 추정하는 방법
히스토그램의 모양을 설명하는 방법
R에서 히스토그램을 만드는 방법
Python에서 히스토그램을 만드는 방법

다음 자습서에서는 점 도표에 대한 추가 정보를 제공합니다.

도트 플롯의 중심과 확산을 찾는 방법
Google 스프레드시트에서 점도표를 만드는 방법
Excel에서 도트 플롯을 만드는 방법
R에서 도트 플롯을 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다