สเตอร์เจสคืออะไร? ไม้บรรทัด? (คำจำกัดความ & #038; ตัวอย่าง)


ฮิสโตแกรม เป็นกราฟที่ช่วยให้เราเห็นการกระจายของค่าในชุดข้อมูล

ปรากฎว่าจำนวนกล่องที่ใช้ในฮิสโตแกรมสามารถมีผลกระทบอย่างมากต่อวิธีที่เราตีความข้อมูล

หากเราใช้กลุ่มน้อยเกินไป รูปแบบพื้นฐานที่แท้จริงในข้อมูลสามารถซ่อนได้:

และถ้าเราใช้กลุ่มมากเกินไป เราก็สามารถเห็นภาพสัญญาณรบกวนในชุดข้อมูลได้:

โชคดีที่เราสามารถใช้วิธีที่เรียกว่ากฎของ Sturges เพื่อกำหนดจำนวนกล่องที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรม

กฎของสเตอเจส ใช้สูตรต่อไปนี้เพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดเพื่อใช้ในฮิสโตแกรม:

ถังขยะที่เหมาะสมที่สุด = ⌈log 2 n + 1⌉

ทอง:

  • n: จำนวน การสังเกต ทั้งหมดในชุดข้อมูล
  • ⌈ ⌉: สัญลักษณ์ที่มีความหมายว่า “เพดาน” คือ การปัดเศษคำตอบให้เป็นจำนวนเต็มที่ใกล้ที่สุด

ตัวอย่าง: กฎของสเตอร์เจส

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีการสังเกตทั้งหมด n = 31 ครั้ง:

เราสามารถใช้กฎของ Sturges เพื่อกำหนดจำนวนกล่องที่เหมาะสมที่สุดที่จะใช้เพื่อแสดงภาพค่าเหล่านี้ในฮิสโตแกรม:

ถังขยะที่เหมาะสมที่สุด = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6

ตามกฎของสเตอเจส เราควรใช้ถัง 6 ถังในฮิสโตแกรมที่เราใช้เพื่อแสดงภาพการกระจายของค่านี้

นี่คือลักษณะฮิสโตแกรมที่มี 6 กลุ่มสำหรับชุดข้อมูลนี้:

การใช้กฎของสเตอเจสเพื่อกำหนดจำนวนกล่องที่จะใช้ในฮิสโตแกรม

สังเกตว่าสิ่งนี้ดูเหมือนจะเพียงพอที่จะเข้าใจการกระจายของค่าที่ซ่อนอยู่โดยไม่ต้องมีมากมายเกินกว่าจะมองเห็นสัญญาณรบกวนในข้อมูลได้

ค่าทั่วไปสำหรับกฎของ Sturges

ตารางต่อไปนี้แสดงจำนวนกลุ่มที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรมโดยพิจารณาจากจำนวนการสังเกตทั้งหมดในชุดข้อมูล ตามกฎของ Sturges:

กฎของสเตอเจสสำหรับขนาดตัวอย่างต่างๆ

ทางเลือกอื่นสำหรับกฎของสเตอเจส

กฎของสเตอเจสเป็นวิธีการทั่วไปในการกำหนดจำนวนถังขยะที่เหมาะสมที่สุดที่จะใช้ในฮิสโตแกรม แต่มีวิธีการอื่นหลายวิธี ได้แก่:

กฎสแควร์รูท : จำนวนกล่อง = ⌈√ n

กฎข้าว: จำนวนถัง = ⌈2 * 3n

กฎ Freedman-Diaconis: จำนวนกล่อง = (2*IQR) / 3n โดยที่ IQR คือช่วงระหว่างควอไทล์

โบนัส: เครื่องคำนวณกฎของ Sturges

ใช้เครื่องคิดเลขออนไลน์ฟรีนี้เพื่อใช้กฎของ Sturges โดยอัตโนมัติเพื่อกำหนดจำนวนกลุ่มที่เหมาะสมที่สุดที่จะใช้สำหรับฮิสโตแกรมตามขนาดของชุดข้อมูล

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *