Точковий графік і гістограма: у чому різниця?


Дві діаграми, які зазвичай використовуються для візуалізації розподілу значень у наборі даних, — це точкові діаграми та гістограми .

Точковий графік відображає окремі значення даних уздовж осі X і використовує точки для представлення частот кожного окремого значення.

Гістограма відображає діапазони даних уздовж осі X і використовує прямокутні стовпчики для представлення частот значень, що належать до кожного діапазону.

У наступному прикладі показано, як створити точкову діаграму та гістограму для одного набору даних.

Приклад: створення точкового графіка та гістограми для одного набору даних

Припустімо, що ми маємо наступний набір даних із 18 значеннями:

Дані: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10

Ось як виглядатиме точковий графік для цього набору даних:

На осі абсцис відображаються окремі значення даних, а на осі у – частота кожного значення.

Наприклад, ми бачимо, що значення «2» з’являється тричі в наборі даних, оскільки над ним є три точки. Так само ми бачимо, що значення «3» з’являється лише один раз, оскільки над ним є лише одна крапка.

І ось як виглядатиме гістограма для цього набору даних:

Охайний.

Наприклад, ми бачимо, що сім значень знаходяться між 0 і 2, два значення знаходяться між 2 і 4 і так далі.

Бонус : для тих, кому цікаво, ми використали наступний код R для створення точкового графіка та гістограми, показаних вище:

 #define dataset
data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10)

#create dot plot
stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5,
           col = "steelblue", main = "Dot Plot",
           xlab = "Data Values", ylab="Frequency")

#create histogram
hist(data, col='steelblue', main='Histogram', xlab='Data Values')

Точковий графік або гістограма: що краще використовувати?

Як згадувалося раніше, точкову діаграму та гістограму можна використовувати для візуалізації розподілу значень у наборі даних.

Як правило, ми зазвичай використовуємо точкові діаграми, коли наш набір даних невеликий, оскільки це дозволяє нам точно побачити, скільки разів з’являється кожне окреме значення.

І навпаки, ми зазвичай використовуємо гістограми, коли наш набір даних великий, тому що створити точку для представлення кожного окремого значення у великому наборі даних утомливо.

Майте на увазі, що єдиним недоліком використання гістограми є те, що ми не можемо точно визначити, скільки разів з’являється кожне окреме значення.

Наприклад, на попередній гістограмі ми бачили, що сім значень були між 0 і 2, але ми точно не знаємо, скільки значень було 1 і скільки значень було 2.

Якщо ми просто хочемо зрозуміти загальну «форму» розподілу, тоді, як правило, не має значення, якщо ми не знаємо окремих значень набору даних.

Також майте на увазі, що ми не можемо обчислити точне медіане чи середнє значення, просто дивлячись на гістограму, оскільки ми не знаємо окремих значень.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про гістограми.

Як оцінити середнє значення та медіану гістограм
Як описати форму гістограм
Як створити гістограми в R
Як створити гістограму в Python

У наступних посібниках надається додаткова інформація про точкові графіки:

Як знайти центр і поширення точкової діаграми
Як створити точкову діаграму в Google Таблицях
Як створити точкову діаграму в Excel
Як створити точкову діаграму в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *