Cdf 또는 pdf: 차이점은 무엇입니까?
이 튜토리얼에서는 통계학에서 PDF(확률밀도함수)와 CDF(누적분포함수)의 차이점을 간단하게 설명합니다.
무작위 변수
PDF나 CDF를 정의하기 전에 먼저 확률 변수를 이해해야 합니다.
일반적으로 X로 표시되는 랜덤 변수는 랜덤 프로세스의 수치 결과를 값으로 갖는 변수입니다. 확률변수에는 이산형과 연속형의 두 가지 유형이 있습니다.
이산확률변수
이산확률변수 는 0, 1, 2, 3, 4, 5… 100, 100만 등과 같이 셀 수 있는 수의 고유한 값만 취할 수 있는 변수입니다. 다음은 이산 확률 변수의 몇 가지 예입니다.
- 동전을 20번 던져 뒷면이 나오는 횟수입니다.
- 주사위를 100번 굴려 숫자 4 가 나오는 횟수입니다.
연속확률변수
연속 확률 변수는 무한한 수의 가능한 값을 취할 수 있는 변수입니다. 다음은 연속확률변수의 몇 가지 예입니다.
- 사람의 키
- 동물의 무게
- 1마일을 걷는 데 걸리는 시간
예를 들어 사람의 키는 60.2인치, 65.2344인치, 70.431222인치 등이 될 수 있습니다. 크기에 대해 가능한 값은 무한합니다.
일반적인 경험 법칙: 결과 수를 셀 수 있다면 이산 확률 변수를 사용하는 것입니다(예: 동전이 앞면이 나오는 횟수 계산). 그러나 결과를 측정 할 수 있다면 연속 확률 변수(예: 측정값, 키, 몸무게, 시간 등)를 사용하여 작업하는 것입니다.
확률밀도함수
확률 밀도 함수 (pdf)는 임의 변수가 특정 값을 취할 확률을 알려줍니다.
예를 들어 주사위를 한 번 굴린다고 가정해 보겠습니다. x를 주사위가 놓인 숫자로 지정하면 결과에 대한 확률 밀도 함수는 다음과 같이 설명할 수 있습니다.
피(x < 1) : 0
P(x = 1) : 1/6
P(x = 2) : 1/6
P(x = 3) : 1/6
P(x = 4) : 1/6
P(x = 5) : 1/6
P(x = 6) : 1/6
P(x > 6) : 0
x는 정수 값만 취할 수 있으므로 이는 이산 확률 변수의 예입니다.
연속 확률 변수의 경우 x가 정확한 값을 취할 확률이 0이므로 PDF를 직접 사용할 수 없습니다.
예를 들어, 특정 레스토랑의 햄버거 무게가 0.25파운드(0.25파운드)일 확률을 알고 싶다고 가정해 보겠습니다. 가중치는 연속형 변수이기 때문에 무한한 수의 값을 가질 수 있습니다.
예를 들어, 특정 햄버거의 실제 무게는 0.250001파운드, 0.24파운드 또는 0.2488파운드일 수 있습니다. 주어진 햄버거의 무게가 정확히 0.25파운드일 확률은 본질적으로 0입니다.
누적 분포 함수
누적 분포 함수 (cdf)는 확률 변수가 x 보다 작거나 같은 값을 가질 확률을 알려줍니다.
예를 들어 주사위를 한 번 굴린다고 가정해 보겠습니다. 주사위가 떨어진 숫자를 x 로 하면 결과의 누적 분포 함수는 다음과 같이 설명할 수 있습니다.
P(x ≤ 0) : 0
P(x ≤ 1) : 1/6
P(x ≤ 2) : 2/6
P(x ≤ 3) : 3/6
P(x ≤ 4) : 4/6
P(x ≤ 5) : 5/6
P(x ≤ 6) : 6/6
P(x > 6) : 0
x 가 6 보다 작거나 같을 확률은 6/6이며 이는 1과 같습니다. 이는 주사위가 100% 확률로 1, 2, 3, 4, 5 또는 6에 떨어지기 때문입니다.
이 예에서는 이산 확률 변수를 사용하지만 연속 확률 변수에는 연속 밀도 함수를 사용할 수도 있습니다.
누적 분포 함수에는 다음과 같은 속성이 있습니다.
- 확률변수가 가능한 가장 작은 값보다 작은 값을 가질 확률은 0입니다. 예를 들어, 주사위가 1보다 작은 값에 떨어질 확률은 0입니다.
- 확률 변수가 가능한 가장 큰 값보다 작거나 같은 값을 가질 확률은 1입니다. 예를 들어, 주사위가 1, 2, 3, 4, 5 또는 6의 값에 나올 확률은 1입니다. 이 숫자 중 하나에 도달해야 합니다.
- cdf는 항상 감소하지 않습니다. 즉, 주사위가 1 이하의 숫자에 떨어질 확률은 1/6, 2 이하의 숫자에 떨어질 확률은 2/6, 3보다 작거나 같은 수는 3/6입니다. 누적 확률은 항상 감소하지 않습니다.
관련 항목: Ogive 차트를 사용하여 누적 분포 함수를 시각화할 수 있습니다.
CDF와 PDF의 관계
기술적인 측면에서 확률 밀도 함수(pdf)는 누적 분포 함수(cdf)의 파생물입니다.
또한 음의 무한대와 x 사이의 pdf 곡선 아래 면적은 cdf의 x 값과 같습니다.
pdf와 cdf의 관계에 대한 철저한 설명과 pdf가 cdf의 파생물인 이유에 대한 증명은 통계 교과서를 참조하세요.