Как применить эмпирическое правило в r


Эмпирическое правило , иногда называемое правилом 68-95-99,7, гласит, что для данного набора данных с нормальным распределением:

  • 68% значений данных находятся в пределах одного стандартного отклонения от среднего значения.
  • 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
  • 99,7% значений данных попадают в пределы трех стандартных отклонений от среднего значения.

В этом уроке мы объясним, как применить эмпирическое правило R к заданному набору данных.

Применение эмпирического правила в R

Функция pnorm() в R возвращает значение кумулятивной функции плотности нормального распределения.

Эта функция использует следующий базовый синтаксис:

pnorm(q, среднее, стандартное отклонение)

Золото:

  • q : нормально распределенное значение случайной величины
  • среднее значение : среднее распределение
  • SD : стандартное отклонение распределения

Мы можем использовать следующий синтаксис, чтобы найти область под кривой нормального распределения, которая находится между различными стандартными отклонениями:

 #find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

По результатам мы можем подтвердить:

  • 68% значений данных находятся в пределах одного стандартного отклонения от среднего значения.
  • 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
  • 99,7% значений данных попадают в пределы трех стандартных отклонений от среднего значения.

Следующие примеры показывают, как на практике использовать эмпирическое правило с различными наборами данных.

Пример 1. Применение эмпирического правила к набору данных в R

Предположим, у нас есть нормально распределенный набор данных со средним значением 7 и стандартным отклонением 2,2 .

Мы можем использовать следующий код, чтобы определить, какие значения содержат 68%, 95% и 99,7% данных:

 #define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2*2.2; mean+2*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3*2.2; mean+3*2.2

[1] 0.4
[1] 13.6

Из этого вывода мы видим:

  • 68% данных находятся между 4,8 и 9,2.
  • 95% данных находятся в диапазоне от 2,6 до 11,4.
  • 99,7% данных находятся в диапазоне от 0,4 до 13,6.

Пример 2. Определите, какой процент данных попадает между определенными значениями.

Представьте, что у нас есть нормально распределенный набор данных со средним значением 100 и стандартным отклонением 5.

Предположим, мы хотим знать, какой процент данных попадает между значениями 99 и 105 в этом распределении.

Мы можем использовать функцию pnorm( ), чтобы найти ответ:

 #find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

Мы видим, что 42,06% данных для этого распределения попадают между значениями 99 и 105.

Дополнительные ресурсы

Как применить эмпирическое правило в Excel
Проблемы с применением эмпирических правил
Правила практического калькулятора

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *