Точечный график и гистограмма: в чем разница?
Два часто используемых графика для визуализации распределения значений в наборе данных — это точечные графики и гистограммы .
Точечный график отображает отдельные значения данных вдоль оси X и использует точки для представления частот каждого отдельного значения.
Гистограмма отображает диапазоны данных вдоль оси X и использует прямоугольные столбцы для обозначения частот значений, принадлежащих каждому диапазону.
В следующем примере показано, как создать точечную диаграмму и гистограмму для одного и того же набора данных.
Пример. Создание точечной диаграммы и гистограммы для одного и того же набора данных
Предположим, у нас есть следующий набор данных с 18 значениями:
Данные: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10.
Вот как будет выглядеть точечная диаграмма для этого набора данных:
Ось X показывает отдельные значения данных, а ось Y показывает частоту каждого значения.
Например, мы видим, что значение «2» появляется в наборе данных три раза, потому что над ним есть три точки. Точно так же мы видим, что значение «3» появляется только один раз, потому что над ним находится только одна точка.
А вот как будет выглядеть гистограмма для этого набора данных:
Аккуратный.
Например, мы видим, что семь значений находятся между 0 и 2, два значения — между 2 и 4 и так далее.
Бонус : для любопытных мы использовали следующий код R для создания точечного графика и гистограммы, показанных выше:
#define dataset data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10) #create dot plot stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5, col = "steelblue", main = "Dot Plot", xlab = "Data Values", ylab="Frequency") #create histogram hist(data, col='steelblue', main='Histogram', xlab='Data Values')
Точечный график или гистограмма: что следует использовать?
Как упоминалось ранее, для визуализации распределения значений в наборе данных можно использовать точечную диаграмму и гистограмму.
Как правило, мы обычно используем точечные графики, когда наш набор данных небольшой, поскольку это позволяет нам точно увидеть, сколько раз появляется каждое отдельное значение.
И наоборот, мы обычно используем гистограммы, когда наш набор данных большой, потому что создавать точку для представления каждого отдельного значения в большом наборе данных утомительно.
Имейте в виду, что единственным недостатком использования гистограммы является то, что мы не можем точно сказать, сколько раз появляется каждое отдельное значение.
Например, на предыдущей гистограмме мы видели, что семь значений находились в диапазоне от 0 до 2, но мы не знаем точно, сколько значений было 1 и сколько значений было 2.
Если мы просто хотим понять общую «форму» распределения, то, как правило, не имеет значения, не знаем ли мы отдельные значения набора данных.
Также имейте в виду, что мы не можем рассчитать точную медиану или среднее значение, просто взглянув на гистограмму, потому что мы не знаем отдельных значений.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о гистограммах:
Как оценить средние и медианные гистограммы
Как описать форму гистограмм
Как создавать гистограммы в R
Как создать гистограмму в Python
В следующих руководствах представлена дополнительная информация о точечных графиках:
Как найти центр и разброс точечного графика
Как создать точечную диаграмму в Google Sheets
Как создать точечную диаграмму в Excel
Как создать точечную диаграмму в R