Cara menentukan pemutusan histogram di r (dengan contoh)


Secara default, fungsi hist() di R menggunakan aturan Sturges untuk menentukan jumlah bin yang akan digunakan dalam histogram.

Aturan Sturges menggunakan rumus berikut untuk menentukan jumlah grup optimal yang akan digunakan dalam histogram:

Tempat sampah optimal = ⌈log 2 n + 1⌉

Emas:

  • n: jumlah total observasi dalam kumpulan data.
  • ⌈ ⌉ : Simbol yang berarti “langit-langit”, yaitu membulatkan jawaban ke bilangan bulat terdekat.

Misalnya, jika terdapat 31 observasi dalam suatu kumpulan data, aturan Sturge akan menggunakan rumus berikut untuk menentukan jumlah grup optimal yang akan digunakan dalam histogram:

Tempat sampah optimal = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .

Menurut aturan Sturges, kita harus menggunakan 6 kotak di histogram untuk memvisualisasikan kumpulan data ini.

Jika Anda menggunakan fungsi hist() di R, aturan Sturges akan digunakan untuk secara otomatis memilih jumlah bin yang akan ditampilkan dalam histogram.

 hist(data)

Bahkan jika Anda menggunakan argumen break untuk menentukan jumlah bin yang berbeda yang akan digunakan, R hanya akan menggunakannya sebagai “saran” tentang berapa banyak bin yang akan digunakan.

 hist(data, breaks= 7 )

Namun, Anda dapat menggunakan kode berikut untuk memaksa R menggunakan sejumlah kotak tertentu dalam histogram:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Catatan : Anda harus menggunakan panjang n+1 untuk length.out dimana n adalah jumlah bin yang Anda inginkan.

Contoh berikut menunjukkan cara menggunakan kode ini dalam praktik.

Contoh: Menentukan Pemutusan Histogram di R

Misalkan kita memiliki kumpulan data berikut di R dengan 16 nilai:

 #create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Jika kita menggunakan fungsi hist() , R akan membuat histogram berikut dengan 5 bin:

 #create histogram
hist(data)

Catatan : R menggunakan aturan Sturges untuk menentukan bahwa 5 grup adalah jumlah grup optimal yang digunakan untuk memvisualisasikan kumpulan data dengan 16 observasi.

Jika kita mencoba menggunakan argumen break untuk menentukan 7 grup yang akan digunakan dalam histogram, R hanya akan menganggap ini sebagai “saran” dan memilih untuk menggunakan 10 grup sebagai gantinya:

 #attempt to create histogram with 7 bins
hist(data, breaks= 7 ) 

Namun, kita dapat menggunakan kode berikut untuk memaksa R menggunakan 7 bin dalam histogram:

 #create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length. out = 8 ))

Perhatikan bahwa hasilnya adalah histogram dengan 7 kotak dengan jarak yang sama.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di R:

Cara membuat histogram frekuensi relatif di R
Cara memplot banyak histogram di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *