R에서 z 점수를 계산하는 방법
통계에서 z-점수는 값이 평균에서 얼마나 많은 표준 편차를 가지고 있는지 알려줍니다. 다음 공식을 사용하여 z-점수를 계산합니다.
z = (X – μ) / σ
금:
- X는 단일 원시 데이터 값입니다.
- μ는 모집단 평균입니다.
- σ는 모집단 표준편차입니다.
이 튜토리얼에서는 R에서 원시 데이터 값에 대한 z-점수를 계산하는 방법을 설명합니다.
예 1: 단일 벡터에 대한 Z-점수 찾기
다음 코드는 벡터의 각 원시 데이터 값에 대한 z-점수를 찾는 방법을 보여줍니다.
#create vector of data data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22) #find z-score for each data value z_scores <- (data-mean(data))/sd(data) #display z-scores z_scores [1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000 [7] 0.3779645 0.5669467 1.1338934 1.7008401
각 z-점수는 개별 값이 평균에서 얼마나 많은 표준 편차를 가지고 있는지 알려줍니다. 예를 들어:
- “6”의 첫 번째 원시 데이터 값은 평균보다 1.323 표준편차 아래에 있습니다.
- 다섯 번째 원시 데이터 값인 “13”은 평균에서 0 표준편차, 즉 평균과 같습니다.
- 최신 원시 데이터 값 “22”는 평균 보다 1.701 표준편차 높습니다.
예 2: DataFrame의 단일 열에 대한 Z-점수 찾기
다음 코드는 데이터프레임의 단일 열에 있는 각 원시 데이터 값의 z-점수를 찾는 방법을 보여줍니다.
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-score for each data value in the 'points' column z_scores <- (df$points-mean(df$points))/sd(df$points) #display z-scores z_scores [1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502
각 z-점수는 개별 값이 평균에서 얼마나 많은 표준 편차를 가지고 있는지 알려줍니다. 예를 들어:
- “24”의 첫 번째 원시 데이터 값은 평균 보다 0.619 표준편차 높습니다.
- 두 번째 원시 데이터 값 “29”는 평균 보다 1.464 표준편차 높습니다.
- 세 번째 원시 데이터 값인 “13”은 평균보다 1.238 표준편차 낮습니다 .
등등.
예 3: DataFrame의 각 열에 대한 Z-점수 찾기
다음 코드는 sapply() 함수를 사용하여 데이터 프레임의 각 열에 있는 각 원시 데이터 값에 대한 z-점수를 찾는 방법을 보여줍니다.
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-scores of each column sapply(df, function(df) (df-mean(df))/sd(df)) assists points rebounds [1,] -0.92315712 0.6191904 -0.9035079 [2,] -0.92315712 1.4635409 -0.9035079 [3,] -0.34011052 -1.2383807 -0.4517540 [4,] -0.04858722 -0.9006405 -0.2258770 [5,] 0.53445939 -0.2251601 1.1293849 [6,] 1.70055260 0.2814502 1.3552619
각 개별 값의 Z 점수는 값이 위치한 열을 기준으로 표시됩니다. 예를 들어:
- 첫 번째 열의 첫 번째 “4” 값은 해당 열의 평균값보다 0.923 표준편차 낮습니다 .
- 두 번째 열에 있는 “24”의 첫 번째 값은 해당 열의 평균값 보다 0.619 표준편차 높습니다.
- 세 번째 열의 첫 번째 값 “9”는 해당 열의 평균값보다 0.904 표준편차 낮습니다 .
등등.
여기에서 더 많은 R 튜토리얼을 찾을 수 있습니다.