วิธีตั้งค่าจำนวนถังขยะสำหรับฮิสโตแกรมใน ggplot2
คุณสามารถใช้อาร์กิวเมนต์ bins เพื่อระบุจำนวนถังขยะที่จะใช้ในฮิสโตแกรมใน ggplot2 :
library (ggplot2) ggplot(df, aes (x=x)) + geom_histogram(bins= 10 )
ตัวอย่างต่อไปนี้แสดงวิธีการใช้อาร์กิวเมนต์นี้ในทางปฏิบัติ
ตัวอย่าง: กำหนดจำนวนถังขยะสำหรับฮิสโตแกรมใน ggplot2
รหัสต่อไปนี้แสดงวิธีสร้างชุดข้อมูลใน R ที่มีค่าสุ่ม 10,000 ค่าตามหลัง การแจกแจงปัวซอง ด้วยค่าเฉลี่ย 2:
#make this example reproducible
set. seeds (0)
#create data frame with 10,000 random values that follow Poisson distribution
df <- data. frame (values=rpois(n= 10000 , lambda= 2 ))
#view first five rows of data frame
head(df)
values
1 4
2 1
3 1
4 2
5 4
6 1
เราสามารถใช้โค้ดต่อไปนี้เพื่อสร้างฮิสโตแกรมใน ggplot2 เพื่อแสดงภาพการกระจายของค่าในกรอบข้อมูล:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ')
ตามค่าเริ่มต้น ggplot2 จะเลือกกล่องจำนวนหนึ่งเพื่อใช้ในฮิสโตแกรมโดยอัตโนมัติ
อย่างไรก็ตาม เราสามารถใช้ไวยากรณ์ต่อไปนี้เพื่อระบุว่าเราต้องการให้ฮิสโตแกรมใช้ 10 bins:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ', bins= 10 )
โปรดทราบว่าขณะนี้ฮิสโตแกรมมี 10 กล่องพอดี
หรือเราสามารถใช้ไวยากรณ์ต่อไปนี้เพื่อระบุว่าเราต้องการให้ฮิสโตแกรมใช้ 5 bins:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill=' steelblue ', col=' black ', bins= 5 )
โปรดทราบว่าขณะนี้ฮิสโตแกรมมี 5 กล่องพอดี
คุณจะพบว่า ยิ่งใช้ถังขยะน้อยลง แต่ละถังขยะก็จะกว้างขึ้นเท่านั้น
โดยทั่วไป หากคุณใช้กลุ่มน้อยเกินไป การกระจายค่าที่ซ่อนอยู่ที่แท้จริงจะถูกซ่อนไว้
อย่างไรก็ตาม หากคุณใช้กลุ่มมากเกินไป คุณเสี่ยงที่จะเห็นสัญญาณรบกวนในข้อมูล
วิธีหนึ่งในการค้นหาจำนวนถังขยะที่เหมาะสมที่สุดเพื่อใช้ในฮิสโตแกรมคือการใช้ กฎของ Sturges เรียนรู้เพิ่มเติมเกี่ยวกับกฎนี้ ที่นี่
หมายเหตุ : คุณสามารถดูเอกสารฉบับเต็มสำหรับฟังก์ชัน geom_histogram ได้ที่นี่
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีสร้างกราฟทั่วไปอื่นๆ ใน R:
วิธีสร้างฮิสโตแกรมความถี่สัมพัทธ์ใน R
วิธีพล็อต Boxplot หลายอันในกราฟเดียวใน R
วิธีการพล็อตหลายบรรทัดในกราฟใน R