Excel에서 탐색적 데이터 분석을 수행하는 방법
데이터 분석 프로젝트의 첫 번째 단계 중 하나는 탐색적 데이터 분석 입니다.
여기에는 세 가지 방법으로 데이터 세트를 탐색하는 작업이 포함됩니다.
1. 기술 통계를 사용하여 일련의 데이터를 요약합니다 .
2. 그래프를 사용하여 일련의 데이터를 시각화합니다 .
3. 누락된 값을 식별합니다 .
이 세 가지 작업을 수행하면 가설 검정 , 회귀 모델 피팅 또는 통계 모델링을 수행하기 전에 데이터 세트의 값이 어떻게 분포되어 있는지 이해하고 문제가 있는 값을 감지할 수 있습니다.
다음 단계별 예에서는 Excel에서 탐색적 데이터 분석을 수행하는 방법을 보여줍니다.
1단계: 데이터세트 만들기
먼저 10명의 농구 선수에 대한 정보가 포함된 간단한 데이터세트를 만들어 보겠습니다.

이 데이터 세트에는 세 가지 변수(포인트, 리바운드, 어시스트)가 포함되어 있으며 일부 변수에는 실제 데이터 세트에서 흔히 볼 수 있는 비어 있거나 NA 값이 있습니다.
2단계: 데이터 요약
다음으로, 이 데이터 세트의 세 가지 변수 각각에 대한 평균, 중앙값, 사분위수, 최소값, 최대값을 계산할 수 있습니다.

다음은 B열의 각 셀에 사용한 수식입니다.
- B13 : =평균( B2:B11 )
- B14 : =중앙값( B2:B11 )
- B15 : =사분위수( B2:B11 , 1)
- B16 : =사분위수( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
그런 다음 C열과 D열의 값에 대해 동일한 측정항목을 계산할 수 있도록 각 수식을 오른쪽으로 드래그했습니다.
이러한 각 변수에 대한 기술통계를 계산함으로써 각 변수에 대한 값의 분포를 잘 이해할 수 있습니다.
참고 : 각 수식은 각 기술 통계를 계산할 때 공백 또는 NA 값을 자동으로 무시합니다.
3단계: 데이터 시각화
데이터 세트의 값을 시각화하기 위해 그래프를 만들 수도 있습니다.
예를 들어 Points 변수 값의 분포를 시각화하려면 B2:B11 셀 범위의 값을 강조 표시한 다음 상단 리본에 있는 삽입 탭을 클릭한 다음 그래픽 그룹에서 히스토그램 아이콘을 클릭하면 됩니다. :

다음 히스토그램이 자동으로 생성됩니다.

이 히스토그램을 사용하면 플레이어가 득점한 점수 분포를 시각화할 수 있습니다.
예를 들어 다음을 볼 수 있습니다.
- 4명의 선수가 10~15점을 기록했습니다.
- 1명의 선수가 15점에서 20점 사이를 기록했습니다.
- 2명의 선수가 20~25점을 기록했습니다.
- 3명의 선수가 25~30점을 기록했습니다.
데이터세트의 각 변수에 대해 이 프로세스를 반복하여 각 변수에 대한 값의 분포를 시각화할 수 있습니다.
4단계: 누락된 값 식별
다음 공식을 사용하여 B열의 누락된 값 수를 계산할 수도 있습니다.
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
B19 셀에 이 수식을 입력한 다음 오른쪽으로 끌어 데이터 세트의 각 변수에 대한 누락된 값의 수를 계산할 수 있습니다.

결과에서 우리는 다음을 볼 수 있습니다:
- 포인트 열에 누락된 값이 0개 있습니다.
- 리바운드 열에 누락된 값이 2개 있습니다.
- 도움말 열에 누락된 값이 1개 있습니다.
이제 이 데이터세트에 대한 몇 가지 기본적인 탐색적 데이터 분석을 완료했으며 이 데이터세트의 각 변수에 대해 값이 어떻게 분포되어 있는지 꽤 잘 이해했습니다.
관련 항목: Excel에서 빈 셀을 0으로 바꾸는 방법
추가 리소스
다음 자습서에서는 Excel에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
Excel에서 다섯 숫자의 요약을 계산하는 방법
Excel에서 그룹별 평균을 계산하는 방법
Excel에서 그룹당 최대값을 계산하는 방법