Как применить эмпирическое правило в r
Эмпирическое правило , иногда называемое правилом 68-95-99,7, гласит, что для данного набора данных с нормальным распределением:
- 68% значений данных находятся в пределах одного стандартного отклонения от среднего значения.
- 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
- 99,7% значений данных попадают в пределы трех стандартных отклонений от среднего значения.
В этом уроке мы объясним, как применить эмпирическое правило R к заданному набору данных.
Применение эмпирического правила в R
Функция pnorm() в R возвращает значение кумулятивной функции плотности нормального распределения.
Эта функция использует следующий базовый синтаксис:
pnorm(q, среднее, стандартное отклонение)
Золото:
- q : нормально распределенное значение случайной величины
- среднее значение : среднее распределение
- SD : стандартное отклонение распределения
Мы можем использовать следующий синтаксис, чтобы найти область под кривой нормального распределения, которая находится между различными стандартными отклонениями:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
По результатам мы можем подтвердить:
- 68% значений данных находятся в пределах одного стандартного отклонения от среднего значения.
- 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
- 99,7% значений данных попадают в пределы трех стандартных отклонений от среднего значения.
Следующие примеры показывают, как на практике использовать эмпирическое правило с различными наборами данных.
Пример 1. Применение эмпирического правила к набору данных в R
Предположим, у нас есть нормально распределенный набор данных со средним значением 7 и стандартным отклонением 2,2 .
Мы можем использовать следующий код, чтобы определить, какие значения содержат 68%, 95% и 99,7% данных:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
Из этого вывода мы видим:
- 68% данных находятся между 4,8 и 9,2.
- 95% данных находятся в диапазоне от 2,6 до 11,4.
- 99,7% данных находятся в диапазоне от 0,4 до 13,6.
Пример 2. Определите, какой процент данных попадает между определенными значениями.
Представьте, что у нас есть нормально распределенный набор данных со средним значением 100 и стандартным отклонением 5.
Предположим, мы хотим знать, какой процент данных попадает между значениями 99 и 105 в этом распределении.
Мы можем использовать функцию pnorm( ), чтобы найти ответ:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
Мы видим, что 42,06% данных для этого распределения попадают между значениями 99 и 105.
Дополнительные ресурсы
Как применить эмпирическое правило в Excel
Проблемы с применением эмпирических правил
Правила практического калькулятора