원시 데이터란 무엇입니까? (정의 및 예)
통계에서 원시 데이터는 기본 소스에서 직접 수집되었으며 어떠한 방식으로도 처리되지 않은 데이터를 의미합니다.
모든 유형의 데이터 분석 프로젝트에서 첫 번째 단계는 원시 데이터를 수집하는 것입니다. 이 데이터가 수집되면 정리, 변환, 요약 및 시각화할 수 있습니다.
원시 데이터 수집의 장점은 궁극적으로 이를 사용하여 특정 현상을 더 잘 이해하거나 일종의 예측 모델을 구축하는 데 사용할 수 있다는 것입니다.
다음 예는 원시 데이터가 실제 생활에서 어떻게 수집되고 사용될 수 있는지 보여줍니다.
예: 원시 데이터 수집 및 사용
스포츠는 원시 데이터(Raw Data)가 많이 수집되는 분야이다. 예를 들어, 프로농구 선수에 대한 다양한 통계에 대한 원시 데이터를 수집할 수 있습니다.
1단계: 원시 데이터 수집
농구 스카우트가 프로 농구팀의 선수 10명에 대해 다음과 같은 원시 데이터를 수집한다고 가정해 보겠습니다.
이 데이터 세트는 스카우트가 직접 수집한 원시 데이터를 나타내며 어떤 방식으로든 정리되거나 처리되지 않았습니다.
2단계: 원시 데이터 정리
이 데이터를 사용하여 요약 테이블, 그래프 또는 기타 항목을 만들기 전에 스카우트는 먼저 누락된 값을 제거하고 “더러운” 데이터 값을 정리해야 합니다.
예를 들어 데이터 세트에서 변환하거나 제거해야 하는 여러 값을 발견할 수 있습니다.
스카우트는 누락된 값이 여러 개 있기 때문에 마지막 행을 완전히 제거하기로 결정할 수도 있습니다. 그런 다음 데이터 세트의 문자 값을 정리하여 다음과 같은 “깨끗한” 데이터를 얻을 수 있습니다.
3단계: 데이터 요약
데이터가 정리되면 스카우트는 데이터 세트의 각 변수를 요약할 수 있습니다. 예를 들어 “분” 변수에 대해 다음과 같은 요약 통계를 계산할 수 있습니다.
- 평균 : 24분
- 중앙값 : 22분
- 표준편차 : 9.45분
4단계: 데이터 시각화
그런 다음 스카우트는 데이터 세트의 변수를 시각화하여 데이터 값을 더 잘 이해할 수 있습니다.
예를 들어, 그는 각 플레이어가 플레이한 총 시간을 시각화하기 위해 다음 막대 차트를 만들 수 있습니다.
또는 다음과 같은 산점도를 만들어 경기 시간과 득점 점수 간의 관계를 시각화할 수도 있습니다.
이러한 각 유형의 차트는 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.
5단계: 데이터를 사용하여 모델 구축
마지막으로 데이터가 정리되면 스카우트는 특정 유형의 예측 모델을 적용하기로 결정할 수 있습니다.
예를 들어, 간단한 선형 회귀 모델을 적용하고 플레이 시간을 사용하여 각 플레이어가 득점한 총 점수를 예측할 수 있습니다.
적합 회귀 방정식은 다음과 같습니다.
포인트 = 8.7012 + 0.2717*(분)
그런 다음 스카우트는 이 방정식을 사용하여 플레이 시간(분)을 기준으로 플레이어가 획득할 점수를 예측할 수 있습니다. 예를 들어, 30분 동안 경기를 하는 선수는 16.85 점을 획득해야 합니다.
포인트 = 8.7012 + 0.2717*(30) = 16.85
추가 리소스
통계는 왜 중요한가요?
통계에서 표본 크기가 왜 중요한가요?
통계에서 관찰이란 무엇입니까?
통계에서 표 형식 데이터란 무엇입니까?