Як застосувати емпіричне правило в r


Емпіричне правило , яке іноді називають правилом 68-95-99.7, стверджує, що для заданого набору даних із нормальним розподілом:

  • 68% значень даних знаходяться в межах одного стандартного відхилення від середнього.
  • 95% значень даних знаходяться в межах двох стандартних відхилень від середнього.
  • 99,7% значень даних знаходяться в межах трьох стандартних відхилень від середнього.

У цьому посібнику ми пояснюємо, як застосувати емпіричне правило в R до певного набору даних.

Застосування емпіричного правила в R

Функція pnorm() у R повертає значення кумулятивної функції щільності нормального розподілу.

Ця функція використовує такий базовий синтаксис:

pnorm(q, середнє, sd)

золото:

  • q : значення випадкової змінної з нормальним розподілом
  • mean : середній розподіл
  • sd : стандартне відхилення розподілу

Ми можемо використати такий синтаксис, щоб знайти площу під кривою нормального розподілу, яка лежить між різними стандартними відхиленнями:

 #find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

За результатами ми можемо підтвердити:

  • 68% значень даних знаходяться в межах одного стандартного відхилення від середнього.
  • 95% значень даних знаходяться в межах двох стандартних відхилень від середнього.
  • 99,7% значень даних знаходяться в межах трьох стандартних відхилень від середнього.

У наступних прикладах показано, як на практиці використовувати емпіричне правило з різними наборами даних.

Приклад 1. Застосування емпіричного правила до набору даних у R

Припустімо, що ми маємо набір даних із нормальним розподілом із середнім значенням 7 і стандартним відхиленням 2,2 .

Ми можемо використовувати такий код, щоб визначити, які значення містять 68%, 95% і 99,7% даних:

 #define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2*2.2; mean+2*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3*2.2; mean+3*2.2

[1] 0.4
[1] 13.6

З цього результату ми бачимо:

  • 68% даних мають значення від 4,8 до 9,2
  • 95% даних знаходяться в діапазоні від 2,6 до 11,4
  • 99,7% даних знаходяться в діапазоні від 0,4 до 13,6

Приклад 2. Визначте, який відсоток даних знаходиться між певними значеннями

Уявіть, що ми маємо нормально розподілений набір даних із середнім значенням 100 і стандартним відхиленням 5.

Припустимо, ми хочемо знати, який відсоток даних потрапляє між значеннями 99 і 105 у цьому розподілі.

Ми можемо використати функцію pnorm( ), щоб знайти відповідь:

 #find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

Ми бачимо, що 42,06% даних потрапляє між значеннями 99 і 105 для цього розподілу.

Додаткові ресурси

Як застосувати емпіричне правило в Excel
Проблеми у вивченні емпіричних правил
Правила калькулятора

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *