R에서 경험 법칙을 적용하는 방법
68-95-99.7 규칙이라고도 하는 경험 법칙은 정규 분포를 갖는 특정 데이터 세트에 대해 다음과 같이 명시합니다.
- 데이터 값의 68% 가 평균의 1표준편차 내에 있습니다.
- 데이터 값의 95% 가 평균의 2표준편차 내에 있습니다.
- 데이터 값의 99.7%가 평균의 3표준편차 내에 속합니다.
이 튜토리얼에서는 R의 경험 법칙을 주어진 데이터 세트에 적용하는 방법을 설명합니다.
R에서 경험 법칙 적용하기
R의 pnorm() 함수는 정규 분포의 누적 밀도 함수 값을 반환합니다.
이 함수는 다음 기본 구문을 사용합니다.
pnorm(q, 평균, sd)
금:
- q : 정규분포된 확률변수 값
- 평균 : 평균 분포
- sd : 분포의 표준편차
다음 구문을 사용하여 다양한 표준 편차 사이에 있는 정규 분포 곡선 아래의 영역을 찾을 수 있습니다.
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
결과를 통해 다음을 확인할 수 있습니다.
- 데이터 값의 68% 가 평균의 1표준편차 내에 있습니다.
- 데이터 값의 95% 가 평균의 2표준편차 내에 있습니다.
- 데이터 값의 99.7%가 평균의 3표준편차 내에 속합니다.
다음 예에서는 실제로 다양한 데이터 세트에 경험 법칙을 사용하는 방법을 보여줍니다.
예 1: R의 데이터 세트에 경험적 규칙 적용
평균이 7 이고 표준편차가 2.2 인 정규 분포 데이터 세트가 있다고 가정합니다.
다음 코드를 사용하여 어떤 값에 데이터의 68%, 95%, 99.7%가 포함되어 있는지 확인할 수 있습니다.
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
이 출력에서 다음을 확인할 수 있습니다.
- 데이터의 68%가 4.8 에서 9.2 사이에 있습니다.
- 데이터의 95%가 2.6 에서 11.4 사이에 있습니다.
- 99.7%의 데이터는 0.4 에서 13.6 사이에 있습니다.
예 2: 특정 값 사이에 속하는 데이터의 비율 확인
평균이 100이고 표준편차가 5인 정규 분포 데이터 세트가 있다고 가정해 보겠습니다.
이 분포에서 99 와 105 값 사이에 속하는 데이터의 비율을 알고 싶다고 가정해 보겠습니다.
pnorm( ) 함수를 사용하여 답을 찾을 수 있습니다.
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
이 분포에서는 데이터의 42.06%가 값 99와 105 사이에 속하는 것을 볼 수 있습니다.