นักสถิติกับนักวิทยาศาสตร์ข้อมูล: อะไรคือความแตกต่าง?


นักสถิติ และ นักวิทยาศาสตร์ข้อมูล ต่างทำงานเกี่ยวกับข้อมูลเป็นจำนวนมาก แต่มีความแตกต่างที่สำคัญบางประการระหว่างสองอาชีพนี้:

ความแตกต่าง #1 (ประเภทของข้อมูล) – นักวิทยาศาสตร์ด้านข้อมูลมักจะใช้เวลามากขึ้นในการรวบรวมและทำความสะอาดข้อมูลที่ไม่สมบูรณ์ ในขณะที่นักสถิติโดยทั่วไปจะมีข้อมูลที่เป็นระเบียบเรียบร้อย

ความแตกต่าง #2 (เป้าหมายสุดท้าย) – นักวิทยาศาสตร์ข้อมูลมักจะมุ่งเน้นไปที่การสร้างแบบจำลองที่ทำนายผลลัพธ์ ในขณะที่นักสถิติมักจะมุ่งเน้นไปที่การสร้างแบบจำลองที่อธิบายความสัมพันธ์ระหว่างตัวแปรได้อย่างถูกต้อง

ความแตกต่าง #3 (การผลิต) – นักวิทยาศาสตร์ด้านข้อมูลมักจะสร้างแบบจำลองที่นำไปใช้จริงในธุรกิจ ในขณะที่นักสถิติมักจะสร้างแบบจำลองที่สามารถให้ข้อมูลเชิงลึกหรือคำอธิบายเกี่ยวกับปรากฏการณ์ได้

อ่านต่อเพื่อดูคำอธิบายโดยละเอียดเกี่ยวกับความแตกต่างเหล่านี้

ความแตกต่าง #1: ประเภทข้อมูล

โดยทั่วไปแล้ว นักวิทยาศาสตร์ข้อมูลมักจะทำงานกับข้อมูลที่ซับซ้อนกว่า ดึงข้อมูลได้ยากกว่า และมีขนาดใหญ่กว่าข้อมูลประเภทที่นักสถิติใช้มาก

ตัวอย่างเช่น นักวิทยาศาสตร์ข้อมูลที่ทำงานในบริษัทอสังหาริมทรัพย์อาจจำเป็นต้องแยกชุดข้อมูลที่ประกอบด้วยแถวหลายล้านแถวจากเซิร์ฟเวอร์ภายนอกที่แตกต่างกัน ทั้งหมดนี้อยู่ในรูปแบบที่แตกต่างกัน

เธอต้องการความรู้ที่ครอบคลุมเกี่ยวกับ SQL และภาษาการเขียนโปรแกรมอย่างน้อยหนึ่งภาษา (เช่น R หรือ Python ) เพื่อแยกข้อมูลและจัดแพคเกจให้อยู่ในรูปแบบที่เหมาะสมสำหรับการสร้างแบบจำลอง

ในทางตรงกันข้าม นักสถิติมักจะทำงานกับชุดข้อมูลที่เล็กกว่าซึ่งนำเสนอในรูปแบบที่เรียบร้อยอยู่แล้ว

ตัวอย่างเช่น นักสถิติที่ทำงานให้กับบริษัทชีวการแพทย์อาจได้รับไฟล์ Excel 50 บรรทัดที่มีข้อมูลเกี่ยวกับความดันโลหิต อัตราการเต้นของหัวใจ และระดับคอเลสเตอรอลของผู้ป่วย 50 รายที่แตกต่างกัน

แทนที่จะใช้เวลาในการแยกและทำความสะอาดข้อมูล พวกเขามักจะใช้เวลามากขึ้นในการตัดสินใจ ทดสอบสมมติฐาน หรือแบบจำลองที่เหมาะสมเพื่อให้เหมาะสมกับข้อมูล และตรวจสอบว่า สมมติฐาน ของการทดสอบหรือแบบจำลองทางสถิติที่เลือกนั้นได้รับการเคารพ

ความแตกต่าง #2: เป้าหมายสุดท้าย

ในหลายกรณี เป้าหมายสุดท้ายของนักวิทยาศาสตร์ข้อมูลคือการสร้างแบบจำลองบางประเภทที่สามารถทำนายผลลัพธ์บางอย่างได้อย่างแม่นยำ

ตัวอย่างเช่น นักวิทยาศาสตร์ข้อมูลที่ทำงานให้กับบริษัททางการเงินอาจพยายามสร้าง แบบจำลองการถดถอยลอจิสติกส์ ที่สามารถคาดการณ์ได้อย่างแม่นยำว่าบุคคลบางคนจะผิดนัดชำระหนี้หรือไม่

พวกเขาจะพอดีกับโมเดลที่หลากหลายโดยใช้การผสมผสานของตัวแปรทำนายที่แตกต่างกัน และพยายามค้นหาแบบจำลองที่สร้างการคาดการณ์ที่แม่นยำที่สุด

เป้าหมายสุดท้ายคือการสร้างแบบจำลองที่แม่นยำ แทนที่จะระบุปริมาณว่าตัวแปรทำนายแต่ละตัวเกี่ยวข้องกับ ตัวแปรตอบสนอง อย่างไร

ในทางตรงกันข้าม นักสถิติมักจะมุ่งเน้นไปที่การสร้างแบบจำลองที่สามารถอธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองได้อย่างแม่นยำ

ตัวอย่างเช่น นักสถิติที่ทำงานในมหาวิทยาลัยอาจรับสมัครนักศึกษา 30 คนเพื่อเข้าร่วมการศึกษาวิจัยที่ระบุปริมาณว่าพฤติกรรมการเรียนที่แตกต่างกันส่งผลต่อคะแนนสอบอย่างไร

ในสถานการณ์นี้ นักสถิติจะให้ความสำคัญกับการตีความค่าสัมประสิทธิ์แบบจำลองการถดถอยและวิเคราะห์ ค่า p ที่สอดคล้องกันเพื่อทำความเข้าใจว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนองหรือไม่

ความแตกต่าง #3: การผลิต

โดยทั่วไปแล้ว นักวิทยาศาสตร์ด้านข้อมูลมักจะสร้างแบบจำลองทางสถิติที่นำไปใช้จริงในธุรกิจบ่อยกว่านักสถิติ

ตัวอย่างเช่น นักวิทยาศาสตร์ข้อมูลที่ทำงานในเครือข่ายร้านขายของชำขนาดใหญ่สามารถสร้างแบบจำลองที่สามารถคาดการณ์ยอดขายของผลิตภัณฑ์ต่างๆ ได้อย่างแม่นยำ

เป้าหมายสุดท้ายของเขาคือการทำงานร่วมกับนักพัฒนาในบริษัทที่สามารถช่วยเขานำโมเดลของเขาไปไว้ในเซิร์ฟเวอร์ที่ทำงานทุกคืนและสามารถคาดการณ์ยอดขายผลิตภัณฑ์ในแต่ละวันใหม่ได้

ในทางกลับกัน นักสถิติไม่ค่อยสร้างแบบจำลองที่รวมเข้ากับประเภทของการผลิต

ตัวอย่างเช่น นักสถิติที่ทำงานในบริษัทดูแลสุขภาพอาจสร้างแบบจำลองที่อธิบายความสัมพันธ์ระหว่างปัจจัยในการดำเนินชีวิตต่างๆ (การสูบบุหรี่ การออกกำลังกาย อาหาร ฯลฯ) แต่เป้าหมายสุดท้ายของพวกเขาคือการ หาปริมาณ ความสัมพันธ์ระหว่างปัจจัยเหล่านี้และตัวแปรการตอบสนอง . เหมือนอายุขัย

เป้าหมายสุดท้ายของพวกเขาคือการสร้างแบบจำลองที่ให้ข้อมูลแก่พวกเขาแทนที่จะวางในสภาพแวดล้อมการใช้งานจริง

บทสรุป

นักสถิติและนักวิทยาศาสตร์ด้านข้อมูลต่างทำงานกับข้อมูลในบทบาทประจำวันของตน แต่ทำในลักษณะที่แตกต่างกัน

นักวิทยาศาสตร์ด้านข้อมูลมักจะทำงานกับข้อมูลที่หลากหลายมากขึ้น ซึ่งมักจะยุ่งเหยิงและจำเป็นต้องได้รับการประมวลผล ในขณะที่นักสถิติมักจะทำงานกับชุดข้อมูลที่เล็กกว่าและเป็นระเบียบมากขึ้น

นักวิทยาศาสตร์ข้อมูลยังมีแนวโน้มที่จะมุ่งเน้นไปที่การสร้างแบบจำลองที่สามารถทำนายผลลัพธ์ได้อย่างแม่นยำ ในขณะที่นักสถิติมักจะสร้างแบบจำลองที่สามารถอธิบายความสัมพันธ์ระหว่างตัวแปรได้อย่างแม่นยำ

ในที่สุด นักวิทยาศาสตร์ข้อมูลมักจะนำแบบจำลองไปใช้จริงในธุรกิจ ในขณะที่นักสถิติมักจะสรุปและรายงานผลลัพธ์เพื่อให้ข้อมูลเชิงลึกเกี่ยวกับปรากฏการณ์ในโลกแห่งความเป็นจริง

แหล่งข้อมูลเพิ่มเติม

บทความต่อไปนี้อธิบายความสำคัญของสถิติในด้านต่างๆ:

เหตุใดสถิติจึงมีความสำคัญ (10 เหตุผลที่สถิติมีความสำคัญ!)
ความสำคัญของสถิติในธุรกิจ
ความสำคัญของสถิติในการศึกษา
ความสำคัญของสถิติในการดูแลสุขภาพ
ความสำคัญของสถิติในด้านการเงิน

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *