단변량 분석 또는 다변량 분석: 차이점은 무엇입니까?
단변량 분석이라는 용어는 하나의 변수에 대한 분석을 의미합니다. 접두사 “uni”가 “하나”를 의미하기 때문에 이것을 기억할 수 있습니다.
다변량 분석이라는 용어는 둘 이상의 변수를 분석하는 것을 의미합니다. 접두사 “multi”가 “하나 이상”을 의미하기 때문에 이를 기억할 수 있습니다.
단변량 분석을 수행하는 세 가지 일반적인 방법은 다음과 같습니다.
1. 요약통계
- 변수의 평균이나 중앙값과 같은 중심 경향의 측정값을 계산할 수 있습니다.
- 변수의 표준편차와 같은 분산 측정값을 계산할 수도 있습니다.
2. 빈도 분포
- 변수에 대해 각 값이 얼마나 자주 나타나는지 설명하는 빈도 분포를 만들 수 있습니다.
3. 그래픽
- 상자 그림, 히스토그램, 밀도 그림 등과 같은 그래프를 만들 수 있습니다. 변수 값의 분포를 시각화합니다.
다변량 분석을 수행하는 두 가지 일반적인 방법은 다음과 같습니다.
1. 산점도 행렬
- 데이터 세트에 있는 각 변수 쌍 조합 간의 관계를 시각화할 수 있는 산점도 행렬을 만들 수 있습니다.
2. 머신러닝 알고리즘
- 지도 학습 알고리즘을 사용하여 여러 예측 변수와 응답 변수 간의 관계를 정량화하는 다중 선형 회귀 와 같은 모델을 맞출 수 있습니다.
- 또한 주성분 분석 과 같은 비지도 학습 알고리즘을 사용하여 데이터 세트에 있는 여러 변수 간의 구조와 관계를 동시에 찾을 수 있습니다.
다음 예에서는 다음 데이터 세트를 사용하여 일변량 및 다변량 분석을 수행하는 방법을 보여줍니다.

참고 : 정확히 두 개의 변수를 분석하는 것을 이변량 분석 이라고 합니다.
예: 일변량 분석을 수행하는 방법
데이터 세트의 개별 변수에 대해 단변량 분석을 수행하도록 선택할 수 있습니다.
예를 들어, 가구 규모 변수에 대한 단변량 분석을 수행하도록 선택할 수 있습니다.

가구 규모의 중심 경향을 측정하는 방법은 다음과 같습니다.
- 평균(평균값):3.8
- 중앙값(평균값): 4
이러한 값은 “중앙” 값이 어디에 있는지에 대한 아이디어를 제공합니다.
또한 다음과 같은 분산 측정값을 계산할 수도 있습니다.
- 범위(최대와 최소의 차이): 6
- 사분위수 척도(값의 중간 50% 분포): 2.5
- 표준편차(평균 스프레드 측정): 1.87
이 값은 이 변수 값의 분포에 대한 아이디어를 제공합니다.
또한 다양한 값이 발생하는 빈도를 요약하기 위해 다음과 같은 빈도 분포표를 만들 수도 있습니다.

또한 가구 규모에 따른 값의 분포를 시각화하기 위해 상자 그림을 만들 수도 있습니다.

또는 값 분포를 시각화하기 위해 히스토그램을 만들 수 있습니다.

이러한 측정값을 계산하고 그래프를 작성하면 가구 규모 변수에 대한 값이 어떻게 분포되어 있는지 더 잘 이해할 수 있습니다.
예: 다변량 분석을 수행하는 방법
동일한 데이터 세트가 있다고 다시 가정해 보겠습니다.

이 데이터세트에 대해 수행할 수 있는 간단한 형태의 다변량 분석은 데이터세트에 있는 숫자 변수의 각 쌍별 조합에 대한 산점도를 표시하는 행렬인 산점도 행렬을 만드는 것입니다.
우리는 가구 규모, 연간 소득, 애완동물 수 사이의 관계를 동시에 시각화하기 위해 이러한 유형의 매트릭스를 만들 수 있습니다.
리소스 : R에서 산점도 행렬을 만드는 방법을 보려면 이 튜토리얼을 확인하세요.
이 데이터 세트에 대해 다변량 분석을 수행하는 또 다른 방법은 다중 선형 회귀 모델을 맞추는 것입니다. 예를 들어, 가구 규모와 애완동물 수를 사용하여 연간 소득을 예측하는 회귀 모델을 만들 수 있습니다.
리소스 : R에서 다중 선형 회귀를 수행하는 방법을 보려면 이 튜토리얼을 확인하세요.
이 데이터세트에 대해 다변량 분석을 수행하는 또 다른 방법은 주성분 분석을 수행하는 것입니다. 이를 통해 데이터세트에서 기본 구조를 찾을 수 있습니다.
리소스 : R에서 주성분 분석을 수행하는 방법을 보려면 이 튜토리얼을 확인하세요.
결론
이 기사의 간략한 요약은 다음과 같습니다.
- 일변량 분석은 하나의 변수를 분석하는 것입니다.
- 다변량 분석은 하나 이상의 변수를 분석하는 것입니다.
- 최종 목표에 따라 각 유형의 분석을 수행하는 방법은 다양합니다.
- 실제로 우리는 단일 데이터 세트에 대해 두 가지 유형의 분석을 모두 수행하는 경우가 많습니다.
- 일변량 분석을 통해 변수 값의 분포를 이해할 수 있고, 다변량 분석을 통해 여러 변수 간의 관계를 이해할 수 있습니다.