고차원 데이터란 무엇입니까? (정의 및 예)


고차원 데이터는 특징 개수 p가 관측 값 개수 N 보다 큰 데이터 세트를 의미하며, 종종 p >> N 으로 표시됩니다.

예를 들어, p = 6개의 특징이 있고 N = 3개의 관찰만 있는 데이터 세트는 특징 수가 관찰 수보다 크기 때문에 고차원 데이터로 간주됩니다.

고차원 데이터

사람들이 저지르는 일반적인 실수는 “고차원 데이터”가 단순히 많은 기능을 가진 데이터 세트를 의미한다고 가정하는 것입니다. 그러나 이것은 잘못된 것입니다. 데이터 세트에는 10,000개의 특징이 포함될 수 있지만 100,000개의 관측치가 포함되어 있으면 고차원이 아닙니다.

참고: 고차원 데이터 이면의 수학에 대한 심층적인 논의는 통계 학습 요소의 18장을 참조하세요.

고차원 데이터가 왜 문제인가?

데이터 세트의 기능 수가 관찰 수를 초과하면 결정적인 답을 얻을 수 없습니다.

즉, 모델을 훈련할 관측값이 충분하지 않기 때문에 예측 변수와 응답 변수 사이의 관계를 설명할 수 있는 모델을 찾는 것이 불가능해집니다.

고차원 데이터의 예

다음 예는 다양한 도메인의 고차원 데이터 세트를 보여줍니다.

예시 1: 건강 데이터

고차원 데이터는 특정 개인에 대한 특성의 수가 엄청날 수 있는 의료 데이터세트에서 일반적입니다(예: 혈압, 안정시 심박수, 면역체계 상태, 수술 이력, 키, 체중, 기존 상태 등).

이러한 데이터 세트에서는 특징 수가 관찰 수보다 많은 것이 일반적입니다.

고차원 데이터의 예

예시 2: 재무 데이터

고차원 데이터는 특정 주식에 대한 특성 수가 상당히 클 수 있는 금융 데이터 세트에서도 일반적입니다(예: PE 비율, 시가총액, 거래량, 배당률 등).

이러한 유형의 데이터 세트에서는 엔터티 수가 개별 작업 수보다 훨씬 많은 것이 일반적입니다.

예시 3: 유전체학

고차원 데이터는 특정 개인의 유전적 특징의 수가 엄청날 수 있는 유전체학 분야에서도 흔히 볼 수 있습니다.

대용량 데이터를 처리하는 방법

고차원 데이터를 처리하는 두 가지 일반적인 방법이 있습니다.

1. 더 적은 수의 기능을 포함하도록 선택합니다.

고차원 데이터 처리를 피하는 가장 확실한 방법은 데이터 세트에 더 적은 수의 기능을 포함하는 것입니다.

데이터세트에서 제거할 기능을 결정하는 방법에는 다음과 같은 여러 가지가 있습니다.

  • 누락된 값이 많은 기능 제거: 데이터 세트의 지정된 열에 누락된 값이 많은 경우 많은 정보 손실 없이 완전히 제거할 수 있습니다.
  • 낮은 분산 기능 제거: 데이터 세트의 지정된 열에 거의 변경되지 않는 값이 있는 경우 다른 기능보다 응답 변수에 대한 유용한 정보를 많이 제공할 가능성이 낮기 때문에 이를 제거할 수 있습니다.
  • 응답 변수와 상관 관계가 낮은 기능 제거: 특정 기능이 관심 있는 응답 변수와 높은 상관 관계가 없는 경우 모델에서 유용한 기능이 아닐 가능성이 높으므로 데이터 세트에서 해당 기능을 제거할 수 있습니다.

2. 정규화 방법을 사용하십시오.

데이터세트에서 특징을 제거하지 않고 고차원 데이터를 처리하는 또 다른 방법은 다음과 같은 정규화 기술을 사용하는 것입니다.

이러한 각 기술은 고차원 데이터를 효율적으로 처리하는 데 사용될 수 있습니다.


이 페이지 에서 모든 통계적 기계 학습 튜토리얼의 전체 목록을 찾을 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다