Excel에서 탐색적 데이터 분석을 수행하는 방법


데이터 분석 프로젝트의 첫 번째 단계 중 하나는 탐색적 데이터 분석 입니다.

여기에는 세 가지 방법으로 데이터 세트를 탐색하는 작업이 포함됩니다.

1. 기술 통계를 사용하여 일련의 데이터를 요약합니다 .

2. 그래프를 사용하여 일련의 데이터를 시각화합니다 .

3. 누락된 값을 식별합니다 .

이 세 가지 작업을 수행하면 가설 검정 , 회귀 모델 피팅 또는 통계 모델링을 수행하기 전에 데이터 세트의 값이 어떻게 분포되어 있는지 이해하고 문제가 있는 값을 감지할 수 있습니다.

다음 단계별 예에서는 Excel에서 탐색적 데이터 분석을 수행하는 방법을 보여줍니다.

1단계: 데이터세트 만들기

먼저 10명의 농구 선수에 대한 정보가 포함된 간단한 데이터세트를 만들어 보겠습니다.

이 데이터 세트에는 세 가지 변수(포인트, 리바운드, 어시스트)가 포함되어 있으며 일부 변수에는 실제 데이터 세트에서 흔히 볼 수 있는 비어 있거나 NA 값이 있습니다.

2단계: 데이터 요약

다음으로, 이 데이터 세트의 세 가지 변수 각각에 대한 평균, 중앙값, 사분위수, 최소값, 최대값을 계산할 수 있습니다.

다음은 B열의 각 셀에 사용한 수식입니다.

  • B13 : =평균( B2:B11 )
  • B14 : =중앙값( B2:B11 )
  • B15 : =사분위수( B2:B11 , 1)
  • B16 : =사분위수( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

그런 다음 C열과 D열의 값에 대해 동일한 측정항목을 계산할 수 있도록 각 수식을 오른쪽으로 드래그했습니다.

이러한 각 변수에 대한 기술통계를 계산함으로써 각 변수에 대한 값의 분포를 잘 이해할 수 있습니다.

참고 : 각 수식은 각 기술 통계를 계산할 때 공백 또는 NA 값을 자동으로 무시합니다.

3단계: 데이터 시각화

데이터 세트의 값을 시각화하기 위해 그래프를 만들 수도 있습니다.

예를 들어 Points 변수 값의 분포를 시각화하려면 B2:B11 셀 범위의 값을 강조 표시한 다음 상단 리본에 있는 삽입 탭을 클릭한 다음 그래픽 그룹에서 히스토그램 아이콘을 클릭하면 됩니다. :

다음 히스토그램이 자동으로 생성됩니다.

이 히스토그램을 사용하면 플레이어가 득점한 점수 분포를 시각화할 수 있습니다.

예를 들어 다음을 볼 수 있습니다.

  • 4명의 선수가 10~15점을 기록했습니다.
  • 1명의 선수가 15점에서 20점 사이를 기록했습니다.
  • 2명의 선수가 20~25점을 기록했습니다.
  • 3명의 선수가 25~30점을 기록했습니다.

데이터세트의 각 변수에 대해 이 프로세스를 반복하여 각 변수에 대한 값의 분포를 시각화할 수 있습니다.

4단계: 누락된 값 식별

다음 공식을 사용하여 B열의 누락된 값 수를 계산할 수도 있습니다.

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

B19 셀에 이 수식을 입력한 다음 오른쪽으로 끌어 데이터 세트의 각 변수에 대한 누락된 값의 수를 계산할 수 있습니다.

결과에서 우리는 다음을 볼 수 있습니다:

  • 포인트 열에 누락된 값이 0개 있습니다.
  • 리바운드 열에 누락된 값이 2개 있습니다.
  • 도움말 열에 누락된 값이 1개 있습니다.

이제 이 데이터세트에 대한 몇 가지 기본적인 탐색적 데이터 분석을 완료했으며 이 데이터세트의 각 변수에 대해 값이 어떻게 분포되어 있는지 꽤 잘 이해했습니다.

관련 항목: Excel에서 빈 셀을 0으로 바꾸는 방법

추가 리소스

다음 자습서에서는 Excel에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

Excel에서 다섯 숫자의 요약을 계산하는 방법
Excel에서 그룹별 평균을 계산하는 방법
Excel에서 그룹당 최대값을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다