สเตอร์เจสคืออะไร? ไม้บรรทัด? (คำจำกัดความ & #038; ตัวอย่าง)
ฮิสโตแกรม เป็นกราฟที่ช่วยให้เราเห็นการกระจายของค่าในชุดข้อมูล
ปรากฎว่าจำนวนกล่องที่ใช้ในฮิสโตแกรมสามารถมีผลกระทบอย่างมากต่อวิธีที่เราตีความข้อมูล
หากเราใช้กลุ่มน้อยเกินไป รูปแบบพื้นฐานที่แท้จริงในข้อมูลสามารถซ่อนได้:

และถ้าเราใช้กลุ่มมากเกินไป เราก็สามารถเห็นภาพสัญญาณรบกวนในชุดข้อมูลได้:

โชคดีที่เราสามารถใช้วิธีที่เรียกว่ากฎของ Sturges เพื่อกำหนดจำนวนกล่องที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรม
กฎของสเตอเจส ใช้สูตรต่อไปนี้เพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดเพื่อใช้ในฮิสโตแกรม:
ถังขยะที่เหมาะสมที่สุด = ⌈log 2 n + 1⌉
ทอง:
- n: จำนวน การสังเกต ทั้งหมดในชุดข้อมูล
- ⌈ ⌉: สัญลักษณ์ที่มีความหมายว่า “เพดาน” คือ การปัดเศษคำตอบให้เป็นจำนวนเต็มที่ใกล้ที่สุด
ตัวอย่าง: กฎของสเตอร์เจส
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีการสังเกตทั้งหมด n = 31 ครั้ง:

เราสามารถใช้กฎของ Sturges เพื่อกำหนดจำนวนกล่องที่เหมาะสมที่สุดที่จะใช้เพื่อแสดงภาพค่าเหล่านี้ในฮิสโตแกรม:
ถังขยะที่เหมาะสมที่สุด = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6
ตามกฎของสเตอเจส เราควรใช้ถัง 6 ถังในฮิสโตแกรมที่เราใช้เพื่อแสดงภาพการกระจายของค่านี้
นี่คือลักษณะฮิสโตแกรมที่มี 6 กลุ่มสำหรับชุดข้อมูลนี้:

สังเกตว่าสิ่งนี้ดูเหมือนจะเพียงพอที่จะเข้าใจการกระจายของค่าที่ซ่อนอยู่โดยไม่ต้องมีมากมายเกินกว่าจะมองเห็นสัญญาณรบกวนในข้อมูลได้
ค่าทั่วไปสำหรับกฎของ Sturges
ตารางต่อไปนี้แสดงจำนวนกลุ่มที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรมโดยพิจารณาจากจำนวนการสังเกตทั้งหมดในชุดข้อมูล ตามกฎของ Sturges:

ทางเลือกอื่นสำหรับกฎของสเตอเจส
กฎของสเตอเจสเป็นวิธีการทั่วไปในการกำหนดจำนวนถังขยะที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรม แต่มีวิธีการอื่นหลายวิธี ได้แก่:
กฎสแควร์รูท : จำนวนกล่อง = ⌈√ n ⌉
กฎข้าว: จำนวนถัง = ⌈2 * 3 √ n ⌉
กฎ Freedman-Diaconis: จำนวนกล่อง = (2*IQR) / 3 √ n โดยที่ IQR คือช่วงระหว่างควอไทล์
โบนัส: เครื่องคำนวณกฎของ Sturges
ใช้เครื่องคิดเลขออนไลน์ฟรีนี้เพื่อใช้กฎของ Sturges โดยอัตโนมัติเพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดที่จะใช้สำหรับฮิสโตแกรมตามขนาดของชุดข้อมูล