통계에서 조건부 분포란 무엇입니까?


XY가 두 개의 공동 분포 확률 변수 인 경우 X 주어진 경우 Y조건부 분포는 X가 특정 값으로 알려진 경우 Y의 확률 분포입니다.

예를 들어, 다음 양방향 표는 100명에게 야구, 농구, 축구 중 어떤 스포츠를 선호하는지 묻는 설문 조사 결과를 보여줍니다.

사람이 남자라는 점을 고려하여 특정 스포츠를 선호할 확률을 알고 싶다면 이것이 조건부 분포의 예입니다.

한 확률 변수의 값은 알려져 있지만(그 사람은 남자입니다), 다른 확률 변수의 값은 알려지지 않았습니다(우리는 그가 좋아하는 스포츠를 모릅니다).

남성의 스포츠 선호도에 대한 조건부 분포를 찾으려면 표에서 남성 에 대한 선의 값을 살펴보겠습니다.

조건부 분포 예

조건부 분포는 다음과 같이 계산됩니다.

  • 야구를 선호하는 남성: 13/48 = 0.2708
  • 농구를 선호하는 남성: 15/48 = 0.3125
  • 축구를 선호하는 남성: 20/48 = 0.4167

확률의 합은 1입니다: 13/48 + 15/48 + 20/48 = 48/48 = 1.

이 조건부 분포를 사용하여 다음과 같은 질문에 대답할 수 있습니다. 개인이 남성이라면 야구가 그가 가장 좋아하는 스포츠일 확률은 얼마입니까?

앞서 계산한 조건부 분포를 보면 확률은 0.2708 임을 알 수 있습니다.

기술적인 용어로 조건부 분포를 계산할 때 전체 모집단의 특정 하위 모집단 에 관심이 있다고 말합니다. 이전 예의 하위 모집단은 남성으로 구성되었습니다.

조건부 분포의 하위 모집단

그리고 이 하위 모집단과 연결된 확률을 계산하려는 경우 관심 있는 특정 캐릭터 에 관심이 있다고 말합니다. 이전 예에서 흥미로운 캐릭터는 야구였습니다.

통계의 조건부 분포

관심 특성이 하위 모집단에 나타날 확률을 찾으려면 관심 특성 값(예: 13)을 하위 모집단의 총 값(예: 48)으로 나누어 13/48 = 0.2708을 얻습니다.

조건부 분포 및 독립성

X 가 주어진 Y 의 조건부 분포가 X 의 모든 가능한 실현에 대해 Y 의 무조건 분포와 동일한 경우에만 확률 변수 X와 Y 독립적이라고 말할 수 있습니다.

예를 들어 이전 표에서 ‘야구 선호’ 테스트와 ‘남성’ 테스트가 서로 독립적이라는 것을 알 수 있나요?

이 질문에 대답하기 위해 다음 확률을 계산해 보겠습니다.

  • P(야구를 좋아함)
  • P(야구를 좋아한다 | 남자) “남자라서 야구를 좋아한다”

특정 개인이 야구를 선호할 확률은 다음과 같습니다.

  • P(야구 선호) = 36/100 = 0.36 .

특정 개인이 남자라는 점을 고려하여 야구를 선호할 확률은 다음과 같습니다.

  • P(야구 선호 | 남자) = 13/48 = .2708 .

P(야구 선호)는 P(야구 선호 | 남성)와 동일하지 않기 때문에 스포츠 선호도와 성별의 확률변수는 독립적 이지 않습니다 .

조건부 분포를 사용하는 이유는 무엇입니까?

조건부 확률 분포는 두 가지 변수(성별, 스포츠 선호도 등)에 대한 데이터를 수집하는 경우가 많기 때문에 유용하지만, 변수 중 하나의 값을 알고 있을 때 확률에 대한 질문에 답하고 싶습니다.

이전 예에서 우리는 특정 개인이 남성이라는 것을 알고 이 개인이 야구를 선호할 확률을 알고자 하는 시나리오를 고려했습니다.

실생활에는 변수의 값을 알고 조건부 분포를 사용하여 다른 변수가 특정 값을 가질 확률을 찾을 수 있는 경우가 많이 있습니다.

추가 리소스

한계 분포란 무엇입니까?
결합 확률 분포란 무엇입니까?
이중 입력 테이블에서 조건부 상대 빈도를 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다