통계학자와 데이터 과학자: 차이점은 무엇인가요?


통계학자데이터 과학자 모두 데이터 관련 작업을 많이 하지만 두 직업 사이에는 몇 가지 주요 차이점이 있습니다.

차이점 #1(데이터 유형) – 데이터 과학자는 불완전한 데이터를 수집하고 정리하는 데 더 많은 시간을 소비하는 경향이 있는 반면, 통계학자는 일반적으로 깔끔한 데이터를 보유합니다.

차이점 #2(최종 목표) – 데이터 과학자는 결과를 예측하는 모델을 만드는 데 집중하는 경향이 있는 반면, 통계학자는 변수 간의 관계를 정확하게 설명하는 모델을 만드는 데 집중하는 경향이 있습니다.

차이점 #3(생산) – 데이터 과학자는 비즈니스에서 생산에 투입되는 모델을 구축하는 경향이 있는 반면, 통계학자는 현상에 대한 통찰력이나 설명을 제공할 수 있는 모델을 구축하는 경향이 있습니다.

이러한 차이점에 대한 자세한 설명을 보려면 계속 읽으세요.

차이점 #1: 데이터 유형

일반적으로 데이터 과학자는 통계학자가 사용하는 데이터 유형보다 더 복잡하고, 추출하기 어렵고, 훨씬 큰 데이터를 사용하는 경우가 많습니다.

예를 들어, 부동산 회사에서 일하는 데이터 과학자는 여러 외부 서버에서 수백만 개의 행이 포함된 데이터 세트를 모두 다른 형식으로 추출해야 할 수 있습니다.

데이터를 추출하고 이를 모델링에 적합한 형식으로 패키지하려면 SQL에 대한 광범위한 지식과 최소한 하나의 프로그래밍 언어( R 또는 Python 등)가 필요합니다.

대조적으로, 통계학자들은 이미 깔끔한 형식으로 제시된 더 작은 데이터 세트를 가지고 작업하는 경향이 있습니다.

예를 들어, 생물의학 회사에 근무하는 통계학자는 50명의 환자의 혈압, 심박수 및 콜레스테롤 수치에 대한 정보가 포함된 50줄짜리 Excel 파일을 받을 수 있습니다.

데이터를 추출하고 정리하는 데 시간을 보내는 대신 데이터에 적합한 적절한 가설 테스트 나 모델을 결정하고 선택한 통계나 테스트의 가정이 존중되는지 확인하는 데 더 많은 시간을 할애할 것입니다.

차이점 #2: 최종 목표

많은 경우 데이터 과학자의 최종 목표는 특정 결과를 정확하게 예측할 수 있는 특정 유형의 모델을 만드는 것입니다.

예를 들어, 금융 회사에서 일하는 데이터 과학자는 특정 사람들이 대출을 불이행할지 여부를 정확하게 예측할 수 있는 로지스틱 회귀 모델을 만들려고 시도할 수 있습니다.

예측 변수의 다양한 조합을 사용하여 다양한 모델에 적합하고 가장 정확한 예측을 생성하는 모델을 찾으려고 시도합니다.

이들의 최종 목표는 각 예측 변수가 반응 변수 와 어떻게 관련되는지 정확하게 정량화하는 것이 아니라 정확한 모델을 만드는 것입니다.

이와 대조적으로 통계학자는 예측 변수와 반응 변수 간의 관계를 정확하게 설명할 수 있는 모델을 만드는 데 더 중점을 두는 경향이 있습니다.

예를 들어, 대학에서 근무하는 통계학자는 다양한 학습 습관이 시험 점수에 미치는 영향을 정확하게 정량화하는 연구에 참여할 학생 30명을 모집할 수 있습니다.

이 시나리오에서 통계학자는 회귀 모델 계수를 해석하고 해당 p-값을 분석하여 응답 변수와 통계적으로 유의미한 관계가 있는지 이해하는 데 더 관심을 갖습니다.

차이점 #3: 생산

일반적으로 데이터 과학자는 통계학자보다 훨씬 더 자주 비즈니스에서 생산에 투입되는 통계 모델을 만드는 경향이 있습니다.

예를 들어 대규모 식료품 체인에서 일하는 데이터 과학자는 다양한 제품의 판매를 정확하게 예측할 수 있는 모델을 만들 수 있습니다.

그의 최종 목표는 회사의 개발자와 협력하여 매일 밤 실행되는 서버에 자신의 모델을 배치하고 매일 제품 판매를 예측할 수 있도록 돕는 것입니다.

반면, 통계학자는 생산 유형에 통합되는 모델을 거의 생성하지 않습니다.

예를 들어, 의료 회사에서 근무하는 통계학자는 다양한 생활 방식 요인(흡연, 운동, 식이 요법 등) 간의 관계를 설명하는 모델을 구축할 수 있지만 최종 목표는 단순히 이러한 요인과 반응 변수 간의 관계를 정량화하는 것입니다. . 수명처럼요.

최종 목표는 프로덕션 환경에 배치되는 모델이 아닌 정보를 제공하는 모델을 만드는 것입니다.

결론

통계학자와 데이터 과학자는 모두 일상적인 역할에서 데이터를 다루지만 그 작업 방식은 서로 다릅니다.

데이터 과학자는 종종 지저분하고 처리가 필요한 다양한 데이터를 사용하는 경향이 있는 반면, 통계학자는 더 작고 깔끔한 데이터 세트를 사용하는 경우가 많습니다.

또한 데이터 과학자는 결과를 정확하게 예측할 수 있는 모델을 구축하는 데 더 중점을 두는 반면, 통계학자는 변수 간의 관계를 정확하게 설명할 수 있는 모델을 구축하는 경향이 있습니다.

마지막으로 데이터 과학자는 비즈니스에서 모델을 생산하는 경향이 있는 반면, 통계학자는 실제 현상에 대한 통찰력을 제공하기 위해 결과를 요약하고 보고하는 경우가 많습니다.

추가 리소스

다음 기사에서는 다양한 분야에서 통계의 중요성을 설명합니다.

통계는 왜 중요한가요? (통계가 중요한 10가지 이유!)
비즈니스에서 통계의 중요성
교육에서 통계의 중요성
의료에서 통계의 중요성
금융에서 통계의 중요성

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다