Cdf หรือ pdf: อะไรคือความแตกต่าง?
บทช่วยสอนนี้ให้คำอธิบายง่ายๆ เกี่ยวกับความแตกต่างระหว่าง PDF (ฟังก์ชันความหนาแน่นของความน่าจะเป็น) และ CDF (ฟังก์ชันการแจกแจงสะสม) ในสถิติ
ตัวแปรสุ่ม
ก่อนที่เราจะสามารถกำหนด PDF หรือ CDF ได้ เราต้องเข้าใจตัวแปรสุ่มก่อน
ตัวแปรสุ่ม ซึ่งมักจะแสดงแทน X เป็นตัวแปรที่มีค่าเป็นผลลัพธ์เชิงตัวเลขของกระบวนการสุ่ม ตัวแปรสุ่มมีสองประเภท: แบบแยกและแบบต่อเนื่อง
ตัวแปรสุ่มแบบไม่ต่อเนื่อง
ตัวแปรสุ่มแบบไม่ต่อเนื่อง คือตัวแปรที่สามารถรับค่าเฉพาะเฉพาะจำนวนนับได้ เช่น 0, 1, 2, 3, 4, 5… 100, 1 ล้าน เป็นต้น นี่คือตัวอย่างบางส่วนของตัวแปรสุ่มแบบไม่ต่อเนื่อง:
- จำนวนครั้งที่เหรียญลงก้อยหลังจากถูกโยนครบ 20 ครั้ง
- จำนวนครั้งที่ลูกเต๋าตกลงบนหมายเลข 4 หลังจากทอยครบ 100 ครั้ง
ตัวแปรสุ่มต่อเนื่อง
ตัวแปรสุ่มต่อเนื่อง คือตัวแปรที่สามารถรับค่าที่เป็นไปได้ได้ไม่จำกัด นี่คือตัวอย่างบางส่วนของตัวแปรสุ่มแบบต่อเนื่อง:
- ความสูงของบุคคล
- น้ำหนักของสัตว์
- เวลาที่ใช้ในการเดินหนึ่งไมล์
ตัวอย่างเช่น ความสูงของบุคคลอาจเป็น 60.2 นิ้ว, 65.2344 นิ้ว, 70.431222 นิ้ว เป็นต้น มีค่าขนาดที่เป็นไปได้จำนวนอนันต์
หลักการทั่วไป: หากคุณสามารถ นับ จำนวนผลลัพธ์ได้ แสดงว่าคุณกำลังทำงานกับตัวแปรสุ่มแบบแยกส่วน (เช่น การนับจำนวนครั้งที่เหรียญขึ้นหัว) แต่หากคุณสามารถ วัด ผลลัพธ์ได้ คุณกำลังทำงานกับตัวแปรสุ่มอย่างต่อเนื่อง (เช่น การวัด ส่วนสูง น้ำหนัก เวลา ฯลฯ)
ฟังก์ชันความหนาแน่นของความน่าจะเป็น
ฟังก์ชันความหนาแน่นของความน่าจะเป็น (pdf) บอกเราถึงความน่าจะเป็นที่ตัวแปรสุ่มจะใช้กับค่าที่กำหนด
ตัวอย่างเช่น สมมติว่าเราทอยลูกเต๋าหนึ่งครั้ง หากเราให้ x แทนจำนวนที่ลูกเต๋าตกลงไป ฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับผลลัพธ์สามารถอธิบายได้ดังนี้:
พ(x < 1) : 0
พ(x = 1) : 1/6
พ(x = 2) : 1/6
พ(x = 3) : 1/6
พ(x = 4) : 1/6
พ(x = 5) : 1/6
พ(x = 6) : 1/6
พ(x > 6) : 0
โปรดทราบว่านี่คือตัวอย่างของตัวแปรสุ่มแบบไม่ต่อเนื่อง เนื่องจาก x รับได้เฉพาะค่าจำนวนเต็มเท่านั้น
สำหรับตัวแปรสุ่มแบบต่อเนื่อง เราไม่สามารถใช้ PDF โดยตรงได้ เนื่องจากความน่าจะเป็นที่ x รับค่าที่แน่นอนคือศูนย์
ตัวอย่างเช่น สมมติว่าเราต้องการทราบความน่าจะเป็นที่แฮมเบอร์เกอร์จากร้านอาหารแห่งหนึ่งจะมีน้ำหนัก 1/4 ปอนด์ (0.25 ปอนด์) เนื่องจาก น้ำหนัก เป็นตัวแปรต่อเนื่อง จึงสามารถรับค่าจำนวนอนันต์ได้
ตัวอย่างเช่น แฮมเบอร์เกอร์หนึ่งชิ้นอาจมีน้ำหนักจริง 0.250001 ปอนด์ หรือ 0.24 ปอนด์ หรือ 0.2488 ปอนด์ ความน่าจะเป็นที่แฮมเบอร์เกอร์หนึ่งชิ้นจะมีน้ำหนัก 0.25 ปอนด์พอดีนั้นเป็นศูนย์
ฟังก์ชันการกระจายสะสม
ฟังก์ชันการแจกแจงสะสม (cdf) บอกเราถึงความน่าจะเป็นที่ตัวแปรสุ่มจะใช้ค่าน้อยกว่าหรือเท่ากับ x
ตัวอย่างเช่น สมมติว่าเราทอยลูกเต๋าหนึ่งครั้ง ถ้าเราให้ x แทนจำนวนที่ลูกเต๋าตกลงไป ฟังก์ชันการแจกแจงสะสมของผลลัพธ์สามารถอธิบายได้ดังนี้:
พี(x ≤ 0) : 0
พิ(x ≤ 1) : 1/6
พิ(x ≤ 2) : 2/6
พิ(x ≤ 3) : 3/6
พิ(x ≤ 4) : 4/6
พิ(x ≤ 5) : 5/6
พิ(x ≤ 6) : 6/6
พ(x > 6) : 0
โปรดทราบว่าความน่าจะเป็นที่ x น้อยกว่าหรือเท่ากับ 6 คือ 6/6 ซึ่งเท่ากับ 1 เนื่องจากลูกเต๋าจะตกลงในวันที่ 1, 2, 3, 4, 5 หรือ 6 โดยมีความน่าจะเป็น 100%
ตัวอย่างนี้ใช้ตัวแปรสุ่มแบบแยกส่วน แต่ฟังก์ชันความหนาแน่นต่อเนื่องก็ใช้กับตัวแปรสุ่มแบบต่อเนื่องได้เช่นกัน
ฟังก์ชันการแจกแจงสะสมมีคุณสมบัติดังต่อไปนี้:
- ความน่าจะเป็นที่ตัวแปรสุ่มรับค่าน้อยกว่าค่าที่น้อยที่สุดที่เป็นไปได้คือศูนย์ ตัวอย่างเช่น ความน่าจะเป็นที่ลูกเต๋าตกลงมาด้วยค่าน้อยกว่า 1 จะเป็นศูนย์
- ความน่าจะเป็นที่ตัวแปรสุ่มรับค่าน้อยกว่าหรือเท่ากับค่าที่ใหญ่ที่สุดที่เป็นไปได้คือหนึ่ง ตัวอย่างเช่น ความน่าจะเป็นที่ลูกเต๋าตกลงมาด้วยค่า 1, 2, 3, 4, 5 หรือ 6 จะเป็นหนึ่ง มันจะต้องลงจอดที่หมายเลขใดหมายเลขหนึ่งเหล่านี้
- cdf จะไม่ลดลงเสมอ กล่าวคือ ความน่าจะเป็นที่ลูกเต๋าจะตรงกับตัวเลขที่น้อยกว่าหรือเท่ากับ 1 คือ 1/6 ความน่าจะเป็นที่ลูกเต๋าจะตรงกับตัวเลขที่น้อยกว่าหรือเท่ากับ 2 คือ 2/6 ความน่าจะเป็นที่จะตกลงบนตัวเลขที่น้อยกว่าหรือเท่ากับ 2 จำนวนที่น้อยกว่าหรือเท่ากับ 3 คือ 3/6 เป็นต้น ความน่าจะเป็นสะสมจะไม่ลดลงเสมอ
ที่เกี่ยวข้อง: คุณสามารถใช้ แผนภูมิ ogive เพื่อแสดงภาพฟังก์ชันการแจกแจงสะสมได้
ความสัมพันธ์ระหว่าง CDF และ PDF
ในแง่เทคนิค ฟังก์ชันความหนาแน่นของความน่าจะเป็น (pdf) คืออนุพันธ์ของฟังก์ชันการแจกแจงสะสม (cdf)
นอกจากนี้ พื้นที่ใต้เส้นโค้งของ pdf ระหว่างค่าอนันต์ลบกับ x เท่ากับค่าของ x บน cdf
หากต้องการคำอธิบายอย่างละเอียดเกี่ยวกับความสัมพันธ์ระหว่าง pdf และ cdf รวมถึงการพิสูจน์ว่าเหตุใด pdf จึงเป็นอนุพันธ์ของ cdf โปรดดูหนังสือเรียนสถิติ