Cara mengatur jumlah bin untuk histogram di ggplot2


Anda dapat menggunakan argumen bins untuk menentukan jumlah bin yang akan digunakan dalam histogram di ggplot2 :

 library (ggplot2)

ggplot(df, aes (x=x)) +
  geom_histogram(bins= 10 )

Contoh berikut menunjukkan bagaimana menggunakan argumen ini dalam praktik.

Contoh: menetapkan jumlah bin untuk histogram di ggplot2

Kode berikut menunjukkan cara membuat dataset di R yang berisi 10.000 nilai acak yang mengikuti distribusi Poisson dengan nilai rata-rata 2:

 #make this example reproducible
set. seeds (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

  values
1 4
2 1
3 1
4 2
5 4
6 1

Kita dapat menggunakan kode berikut untuk membuat histogram di ggplot2 untuk memvisualisasikan distribusi nilai dalam bingkai data:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ') 

Secara default, ggplot2 akan secara otomatis memilih sejumlah kotak tertentu untuk digunakan dalam histogram.

Namun, kita dapat menggunakan sintaks berikut untuk menentukan bahwa kita ingin histogram menggunakan 10 bin:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 10 ) 

Perhatikan bahwa histogram sekarang memiliki tepat 10 kotak.

Atau kita bisa menggunakan sintaks berikut untuk menentukan bahwa kita ingin histogram menggunakan 5 bin:

 library (ggplot2)

ggplot(df, aes (x=values)) +
  geom_histogram(fill=' steelblue ', col=' black ', bins= 5 ) 

Perhatikan bahwa histogram sekarang memiliki tepat 5 kotak.

Anda akan menemukan bahwa semakin sedikit wadah yang Anda gunakan, semakin lebar setiap wadahnya.

Secara umum, jika Anda menggunakan terlalu sedikit grup, distribusi nilai yang sebenarnya akan disembunyikan.

Namun, jika Anda menggunakan terlalu banyak grup, Anda berisiko hanya melihat gangguan pada data.

Salah satu cara untuk menemukan jumlah bin optimal untuk digunakan dalam histogram adalah dengan menggunakan aturan Sturges . Pelajari lebih lanjut tentang aturan ini di sini .

Catatan : Anda dapat menemukan dokumentasi lengkap untuk fungsi geom_histogram di sini .

Sumber daya tambahan

Tutorial berikut menjelaskan cara membuat grafik umum lainnya di R:

Cara membuat histogram frekuensi relatif di R
Cara memplot beberapa plot kotak dalam satu grafik di R
Cara memplot banyak garis dalam grafik di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *