ข้อมูลดิบถือเป็นข้อมูลอะไร? (คำจำกัดความและตัวอย่าง)
ในทางสถิติ ข้อมูลดิบ หมายถึงข้อมูลที่รวบรวมโดยตรงจากแหล่งข้อมูลหลักและไม่ได้รับการประมวลผลในทางใดทางหนึ่ง
ในโปรเจ็กต์การวิเคราะห์ข้อมูลทุกประเภท ขั้นตอนแรกคือการรวบรวมข้อมูลดิบ เมื่อรวบรวมข้อมูลนี้แล้ว ก็สามารถทำความสะอาด แปลง สรุป และแสดงภาพได้
ข้อดีของการรวบรวมข้อมูลดิบคือในที่สุดจะสามารถใช้เพื่อทำความเข้าใจปรากฏการณ์บางอย่างได้ดีขึ้น หรือใช้เพื่อสร้างแบบจำลองการทำนายประเภทหนึ่ง
ตัวอย่างต่อไปนี้แสดงให้เห็นว่าข้อมูลดิบสามารถรวบรวมและนำไปใช้ในชีวิตจริงได้อย่างไร
ตัวอย่าง: การรวบรวมและการใช้ข้อมูลดิบ
กีฬาเป็นพื้นที่ที่มักรวบรวมข้อมูลดิบ ตัวอย่างเช่น สามารถรวบรวมข้อมูลดิบสำหรับสถิติต่างๆ เกี่ยวกับนักบาสเกตบอลมืออาชีพ
ขั้นตอนที่ 1: รวบรวมข้อมูลดิบ
ลองนึกภาพลูกเสือบาสเก็ตบอลรวบรวมข้อมูลดิบต่อไปนี้สำหรับผู้เล่น 10 คนในทีมบาสเก็ตบอลมืออาชีพ:
ชุดข้อมูลนี้แสดงถึง ข้อมูลดิบ ที่ลูกเสือรวบรวมโดยตรง และไม่ได้ทำความสะอาดหรือประมวลผลแต่อย่างใด
ขั้นตอนที่ 2: ทำความสะอาดข้อมูลดิบ
ก่อนที่จะใช้ข้อมูลนี้เพื่อสร้างตารางสรุป กราฟ หรือสิ่งอื่นใด ลูกเสือจะต้องลบค่าที่หายไปออกก่อน และล้างค่าข้อมูลที่ “สกปรก”
ตัวอย่างเช่น เราอาจพบค่าหลายค่าในชุดข้อมูลที่จำเป็นต้องแปลงหรือลบออก:
ลูกเสืออาจตัดสินใจลบแถวสุดท้ายออกทั้งหมดเนื่องจากมีค่าที่ขาดหายไปหลายค่า จากนั้นสามารถล้างค่าอักขระในชุดข้อมูลเพื่อรับข้อมูล “ล้าง” ต่อไปนี้:
ขั้นตอนที่ 3: สรุปข้อมูล
เมื่อล้างข้อมูลแล้ว ลูกเสือสามารถสรุปตัวแปรแต่ละตัวในชุดข้อมูลได้ ตัวอย่างเช่น สามารถคำนวณสถิติสรุปต่อไปนี้สำหรับตัวแปร “นาที”:
- เฉลี่ย : 24 นาที
- เฉลี่ย : 22 นาที
- ส่วนเบี่ยงเบนมาตรฐาน : 9.45 นาที
ขั้นตอนที่ 4: แสดงภาพข้อมูล
ลูกเสือสามารถมองเห็นตัวแปรในชุดข้อมูลเพื่อให้เข้าใจค่าข้อมูลได้ดียิ่งขึ้น
ตัวอย่างเช่น เขาสามารถสร้างแผนภูมิแท่งต่อไปนี้เพื่อให้เห็นภาพจำนวนนาทีทั้งหมดที่ผู้เล่นแต่ละคนเล่น:
หรือเขาอาจสร้างแผนภาพกระจายต่อไปนี้เพื่อให้เห็นภาพความสัมพันธ์ระหว่างนาทีที่เล่นและคะแนนที่ได้:
แผนภูมิแต่ละประเภทสามารถช่วยให้เขาเข้าใจข้อมูลได้ดีขึ้น
ขั้นตอนที่ 5: ใช้ข้อมูลเพื่อสร้างแบบจำลอง
สุดท้าย เมื่อล้างข้อมูลแล้ว ลูกเสือสามารถตัดสินใจปรับแบบจำลองการคาดการณ์บางประเภทได้
ตัวอย่างเช่น สามารถใส่ โมเดลการถดถอยเชิงเส้นแบบง่ายๆ และใช้จำนวนนาทีที่เล่นเพื่อทำนายคะแนนรวมที่ผู้เล่นแต่ละคนทำได้
สมการถดถอยที่ติดตั้งคือ:
คะแนน = 8.7012 + 0.2717*(นาที)
ลูกเสือสามารถใช้สมการนี้เพื่อทำนายจำนวนคะแนนที่ผู้เล่นจะได้คะแนนตามจำนวนนาทีที่เล่น เช่น นักกีฬาที่ลงเล่น 30 นาที ควรทำคะแนน 16.85 คะแนน
คะแนน = 8.7012 + 0.2717*(30) = 16.85
แหล่งข้อมูลเพิ่มเติม
เหตุใดสถิติจึงมีความสำคัญ
เหตุใดขนาดตัวอย่างจึงมีความสำคัญในสถิติ
การสังเกตในสถิติคืออะไร?
ข้อมูลแบบตารางในสถิติคืออะไร?