도트 플롯과 히스토그램: 차이점은 무엇입니까?
데이터 세트의 값 분포를 시각화하기 위해 일반적으로 사용되는 두 가지 플롯은 도트 플롯 과 히스토그램 입니다.
도트 플롯은 x축을 따라 개별 데이터 값을 표시하고 점을 사용하여 각 개별 값의 빈도를 나타냅니다.
히스토그램은 x축을 따라 데이터 범위를 표시하고 직사각형 막대를 사용하여 각 범위에 속하는 값의 빈도를 나타냅니다.
다음 예에서는 동일한 데이터 세트에 대해 점도표와 히스토그램을 만드는 방법을 보여줍니다.
예: 동일한 데이터 세트에 대한 점도표 및 히스토그램 생성
18개의 값을 가진 다음 데이터 세트가 있다고 가정합니다.
데이터: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10
이 데이터 세트의 도트 플롯은 다음과 같습니다.
x축은 개별 데이터 값을 나타내고, y축은 각 값의 빈도를 나타냅니다.
예를 들어, “2”라는 값이 위에 세 개의 점이 있기 때문에 데이터 세트에 세 번 나타나는 것을 볼 수 있습니다. 마찬가지로 값 “3”은 그 위에 점이 하나만 있기 때문에 한 번만 나타나는 것을 볼 수 있습니다.
이 데이터 세트의 히스토그램은 다음과 같습니다.
깔끔해요.
예를 들어 0과 2 사이에 7개의 값이 있고, 2와 4 사이에 2개의 값이 있다는 것을 알 수 있습니다.
보너스 : 궁금한 분들을 위해 다음 R 코드를 사용하여 위에 표시된 도트 플롯과 히스토그램을 만들었습니다.
#define dataset data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10) #create dot plot stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5, col = "steelblue", main = "Dot Plot", xlab = "Data Values", ylab="Frequency") #create histogram hist(data, col='steelblue', main='Histogram', xlab='Data Values')
점도표 또는 히스토그램: 어느 것을 사용해야 합니까?
앞서 언급했듯이 도트 플롯과 히스토그램을 사용하여 데이터 세트의 값 분포를 시각화할 수 있습니다.
경험상, 우리는 데이터 세트가 작을 때 일반적으로 도트 플롯을 사용합니다. 왜냐하면 이를 통해 각 개별 값이 나타나는 횟수를 정확하게 확인할 수 있기 때문입니다.
반대로, 대규모 데이터 세트의 각 개별 값을 나타내는 점을 만드는 것이 지루하기 때문에 일반적으로 데이터 세트가 클 때 히스토그램을 사용합니다 .
히스토그램 사용의 유일한 단점은 각 개별 값이 나타나는 횟수를 정확히 알 수 없다는 것입니다.
예를 들어 이전 히스토그램에서 0과 2 사이에 7개의 값이 있다는 것을 보았지만 1인 값이 몇 개이고 2인 값이 몇 개인지 정확히 알 수 없습니다.
분포의 일반적인 “모양”을 이해하고 싶다면 데이터 세트의 개별 값을 모르더라도 일반적으로 중요하지 않습니다.
또한 개별 값을 모르기 때문에 히스토그램만 보는 것만으로는 정확한 중앙값이나 평균을 계산할 수 없다는 점을 명심하세요.
추가 리소스
다음 자습서에서는 히스토그램에 대한 추가 정보를 제공합니다.
평균 및 중앙값 히스토그램을 추정하는 방법
히스토그램의 모양을 설명하는 방법
R에서 히스토그램을 만드는 방법
Python에서 히스토그램을 만드는 방법
다음 자습서에서는 점 도표에 대한 추가 정보를 제공합니다.
도트 플롯의 중심과 확산을 찾는 방법
Google 스프레드시트에서 점도표를 만드는 방법
Excel에서 도트 플롯을 만드는 방법
R에서 도트 플롯을 만드는 방법