ข้อมูลดิบถือเป็นข้อมูลอะไร? (คำจำกัดความและตัวอย่าง)


ในทางสถิติ ข้อมูลดิบ หมายถึงข้อมูลที่รวบรวมโดยตรงจากแหล่งข้อมูลหลักและไม่ได้รับการประมวลผลในทางใดทางหนึ่ง

ในโปรเจ็กต์การวิเคราะห์ข้อมูลทุกประเภท ขั้นตอนแรกคือการรวบรวมข้อมูลดิบ เมื่อรวบรวมข้อมูลนี้แล้ว ก็สามารถทำความสะอาด แปลง สรุป และแสดงภาพได้

ข้อดีของการรวบรวมข้อมูลดิบคือในที่สุดจะสามารถใช้เพื่อทำความเข้าใจปรากฏการณ์บางอย่างได้ดีขึ้น หรือใช้เพื่อสร้างแบบจำลองการทำนายประเภทหนึ่ง

ตัวอย่างต่อไปนี้แสดงให้เห็นว่าข้อมูลดิบสามารถรวบรวมและนำไปใช้ในชีวิตจริงได้อย่างไร

ตัวอย่าง: การรวบรวมและการใช้ข้อมูลดิบ

กีฬาเป็นพื้นที่ที่มักรวบรวมข้อมูลดิบ ตัวอย่างเช่น สามารถรวบรวมข้อมูลดิบสำหรับสถิติต่างๆ เกี่ยวกับนักบาสเกตบอลมืออาชีพ

ขั้นตอนที่ 1: รวบรวมข้อมูลดิบ

ลองนึกภาพลูกเสือบาสเก็ตบอลรวบรวมข้อมูลดิบต่อไปนี้สำหรับผู้เล่น 10 คนในทีมบาสเก็ตบอลมืออาชีพ:

ชุดข้อมูลนี้แสดงถึง ข้อมูลดิบ ที่ลูกเสือรวบรวมโดยตรง และไม่ได้ทำความสะอาดหรือประมวลผลแต่อย่างใด

ขั้นตอนที่ 2: ทำความสะอาดข้อมูลดิบ

ก่อนที่จะใช้ข้อมูลนี้เพื่อสร้างตารางสรุป กราฟ หรือสิ่งอื่นใด ลูกเสือจะต้องลบค่าที่หายไปออกก่อน และล้างค่าข้อมูลที่ “สกปรก”

ตัวอย่างเช่น เราอาจพบค่าหลายค่าในชุดข้อมูลที่จำเป็นต้องแปลงหรือลบออก:

ลูกเสืออาจตัดสินใจลบแถวสุดท้ายออกทั้งหมดเนื่องจากมีค่าที่ขาดหายไปหลายค่า จากนั้นสามารถล้างค่าอักขระในชุดข้อมูลเพื่อรับข้อมูล “ล้าง” ต่อไปนี้:

ขั้นตอนที่ 3: สรุปข้อมูล

เมื่อล้างข้อมูลแล้ว ลูกเสือสามารถสรุปตัวแปรแต่ละตัวในชุดข้อมูลได้ ตัวอย่างเช่น สามารถคำนวณสถิติสรุปต่อไปนี้สำหรับตัวแปร “นาที”:

  • เฉลี่ย : 24 นาที
  • เฉลี่ย : 22 นาที
  • ส่วนเบี่ยงเบนมาตรฐาน : 9.45 นาที

ขั้นตอนที่ 4: แสดงภาพข้อมูล

ลูกเสือสามารถมองเห็นตัวแปรในชุดข้อมูลเพื่อให้เข้าใจค่าข้อมูลได้ดียิ่งขึ้น

ตัวอย่างเช่น เขาสามารถสร้างแผนภูมิแท่งต่อไปนี้เพื่อให้เห็นภาพจำนวนนาทีทั้งหมดที่ผู้เล่นแต่ละคนเล่น:

หรือเขาอาจสร้างแผนภาพกระจายต่อไปนี้เพื่อให้เห็นภาพความสัมพันธ์ระหว่างนาทีที่เล่นและคะแนนที่ได้:

แผนภูมิแต่ละประเภทสามารถช่วยให้เขาเข้าใจข้อมูลได้ดีขึ้น

ขั้นตอนที่ 5: ใช้ข้อมูลเพื่อสร้างแบบจำลอง

สุดท้าย เมื่อล้างข้อมูลแล้ว ลูกเสือสามารถตัดสินใจปรับแบบจำลองการคาดการณ์บางประเภทได้

ตัวอย่างเช่น สามารถใส่ โมเดลการถดถอยเชิงเส้นแบบง่ายๆ และใช้จำนวนนาทีที่เล่นเพื่อทำนายคะแนนรวมที่ผู้เล่นแต่ละคนทำได้

สมการถดถอยที่ติดตั้งคือ:

คะแนน = 8.7012 + 0.2717*(นาที)

ลูกเสือสามารถใช้สมการนี้เพื่อทำนายจำนวนคะแนนที่ผู้เล่นจะได้คะแนนตามจำนวนนาทีที่เล่น เช่น นักกีฬาที่ลงเล่น 30 นาที ควรทำคะแนน 16.85 คะแนน

คะแนน = 8.7012 + 0.2717*(30) = 16.85

แหล่งข้อมูลเพิ่มเติม

เหตุใดสถิติจึงมีความสำคัญ
เหตุใดขนาดตัวอย่างจึงมีความสำคัญในสถิติ
การสังเกตในสถิติคืออะไร?
ข้อมูลแบบตารางในสถิติคืออะไร?

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *