Как рассчитать баллы z в r
В статистике z-показатель показывает, на сколько стандартных отклонений значение отличается от среднего. Для расчета z-показателя мы используем следующую формулу:
z = (X – µ)/σ
Золото:
- X — одно значение необработанных данных
- μ — среднее значение генеральной совокупности
- σ — стандартное отклонение генеральной совокупности.
В этом руководстве объясняется, как рассчитать z-показатели для значений необработанных данных в R.
Пример 1. Поиск Z-показателей для одного вектора
Следующий код показывает, как найти z-показатель для каждого значения необработанных данных в векторе:
#create vector of data data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22) #find z-score for each data value z_scores <- (data-mean(data))/sd(data) #display z-scores z_scores [1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000 [7] 0.3779645 0.5669467 1.1338934 1.7008401
Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:
- Первое значение необработанных данных «6» на 1,323 стандартных отклонения ниже среднего.
- Пятое значение необработанных данных, «13», составляет 0 стандартных отклонений от среднего значения, то есть оно равно среднему значению.
- Последнее значение необработанных данных «22» на 1,701 стандартного отклонения выше среднего.
Пример 2. Найдите Z-показатели для одного столбца в DataFrame
Следующий код показывает, как найти z-показатель для каждого значения необработанных данных в одном столбце кадра данных:
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-score for each data value in the 'points' column z_scores <- (df$points-mean(df$points))/sd(df$points) #display z-scores z_scores [1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502
Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:
- Первое значение необработанных данных «24» на 0,619 стандартных отклонений выше среднего.
- Второе значение необработанных данных, «29», на 1,464 стандартных отклонения выше среднего.
- Третье значение необработанных данных, «13», на 1,238 стандартных отклонения ниже среднего.
И так далее.
Пример 3. Найдите Z-показатели для каждого столбца в DataFrame
Следующий код показывает, как найти z-показатель для каждого значения необработанных данных в каждом столбце фрейма данных с помощью функции sapply() .
#create dataframe df <- data.frame(assists = c(4, 4, 6, 7, 9, 13), points = c(24, 29, 13, 15, 19, 22), rebounds = c(5, 5, 7, 8, 14, 15)) #find z-scores of each column sapply(df, function(df) (df-mean(df))/sd(df)) assists points rebounds [1,] -0.92315712 0.6191904 -0.9035079 [2,] -0.92315712 1.4635409 -0.9035079 [3,] -0.34011052 -1.2383807 -0.4517540 [4,] -0.04858722 -0.9006405 -0.2258770 [5,] 0.53445939 -0.2251601 1.1293849 [6,] 1.70055260 0.2814502 1.3552619
Z-показатели для каждого отдельного значения отображаются относительно столбца, в котором они расположены. Например:
- Первое значение «4» в первом столбце на 0,923 стандартного отклонения ниже среднего значения этого столбца.
- Первое значение «24» во втором столбце на 0,619 стандартных отклонений превышает среднее значение этого столбца.
- Первое значение «9» в третьем столбце на 0,904 стандартного отклонения ниже среднего значения этого столбца.
И так далее.
Дополнительные руководства по R можно найти здесь .