Nokta grafiği ve histogram: fark nedir?
Bir veri kümesindeki değerlerin dağılımını görselleştirmek için yaygın olarak kullanılan iki grafik nokta grafikleri ve histogramlardır .
Nokta grafiği, x ekseni boyunca bireysel veri değerlerini görüntüler ve her bir değerin frekanslarını temsil etmek için noktaları kullanır.
Histogram, x ekseni boyunca veri aralıklarını görüntüler ve her aralığa ait değerlerin frekanslarını temsil etmek için dikdörtgen çubuklar kullanır.
Aşağıdaki örnek, aynı veri kümesi için nokta grafiğinin ve histogramın nasıl oluşturulacağını gösterir.
Örnek: Aynı Veri Kümesi için Nokta Grafiği ve Histogram Oluşturma
18 değere sahip aşağıdaki veri kümesine sahip olduğumuzu varsayalım:
Veri: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10
Bu veri seti için nokta grafiği şu şekilde görünecektir:
X ekseni bireysel veri değerlerini, y ekseni ise her değerin sıklığını gösterir.
Örneğin “2” değerinin üstünde üç nokta olduğundan veri setinde üç kez göründüğünü görebiliriz. Benzer şekilde “3” değerinin de üstünde tek bir nokta olduğundan yalnızca bir kez göründüğünü görüyoruz.
Bu veri kümesinin histogramı şöyle görünecektir:
Düzenli.
Örneğin yedi değerin 0 ile 2 arasında, iki değerin 2 ile 4 arasında olduğunu vb. görebiliriz.
Bonus : Merak edenler için yukarıda gösterilen nokta grafiğini ve histogramı oluşturmak için aşağıdaki R kodunu kullandık:
#define dataset data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10) #create dot plot stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5, col = "steelblue", main = "Dot Plot", xlab = "Data Values", ylab="Frequency") #create histogram hist(data, col='steelblue', main='Histogram', xlab='Data Values')
Nokta Grafiği veya Histogram: Hangisini Kullanmalısınız?
Daha önce de belirtildiği gibi, bir veri kümesindeki değerlerin dağılımını görselleştirmek için nokta grafiği ve histogram kullanılabilir.
Genel bir kural olarak, veri setimiz küçük olduğunda genellikle nokta grafiklerini kullanırız çünkü bu, her bir değerin tam olarak kaç kez göründüğünü görmemize olanak tanır.
Bunun tersine, veri setimiz büyük olduğunda genellikle histogramları kullanırız çünkü büyük bir veri setindeki her bir değeri temsil edecek bir nokta oluşturmak sıkıcıdır.
Histogram kullanmanın tek dezavantajının, her bir değerin kaç kez göründüğünü tam olarak söyleyemememiz olduğunu unutmayın.
Örneğin önceki histogramda 7 değerin 0 ile 2 arasında olduğunu görmüştük ancak kaç değerin 1, kaç değerin 2 olduğunu tam olarak bilmiyoruz.
Sadece bir dağılımın genel “şeklini” anlamak istiyorsak, bir veri kümesinin bireysel değerlerini bilmememiz genellikle önemli değildir.
Ayrıca, tek tek değerleri bilmediğimiz için sadece histograma bakarak tam medyanı veya ortalamayı hesaplayamayacağımızı unutmayın.
Ek kaynaklar
Aşağıdaki eğitimler histogramlar hakkında ek bilgi sağlar:
Ortalama ve medyan histogramlar nasıl tahmin edilir?
Histogramların şekli nasıl tanımlanır?
R’de histogramlar nasıl oluşturulur
Python’da Histogram Nasıl Oluşturulur
Aşağıdaki eğitimler nokta grafikleri hakkında ek bilgi sağlar:
Nokta grafiğinin merkezi ve yayılımı nasıl bulunur?
Google E-Tablolarda Nokta Grafiği Nasıl Oluşturulur
Excel’de Nokta Grafiği Nasıl Oluşturulur
R’de Nokta Grafiği Nasıl Oluşturulur