Як застосувати емпіричне правило в r
Емпіричне правило , яке іноді називають правилом 68-95-99.7, стверджує, що для заданого набору даних із нормальним розподілом:
- 68% значень даних знаходяться в межах одного стандартного відхилення від середнього.
- 95% значень даних знаходяться в межах двох стандартних відхилень від середнього.
- 99,7% значень даних знаходяться в межах трьох стандартних відхилень від середнього.
У цьому посібнику ми пояснюємо, як застосувати емпіричне правило в R до певного набору даних.
Застосування емпіричного правила в R
Функція pnorm() у R повертає значення кумулятивної функції щільності нормального розподілу.
Ця функція використовує такий базовий синтаксис:
pnorm(q, середнє, sd)
золото:
- q : значення випадкової змінної з нормальним розподілом
- mean : середній розподіл
- sd : стандартне відхилення розподілу
Ми можемо використати такий синтаксис, щоб знайти площу під кривою нормального розподілу, яка лежить між різними стандартними відхиленнями:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
За результатами ми можемо підтвердити:
- 68% значень даних знаходяться в межах одного стандартного відхилення від середнього.
- 95% значень даних знаходяться в межах двох стандартних відхилень від середнього.
- 99,7% значень даних знаходяться в межах трьох стандартних відхилень від середнього.
У наступних прикладах показано, як на практиці використовувати емпіричне правило з різними наборами даних.
Приклад 1. Застосування емпіричного правила до набору даних у R
Припустімо, що ми маємо набір даних із нормальним розподілом із середнім значенням 7 і стандартним відхиленням 2,2 .
Ми можемо використовувати такий код, щоб визначити, які значення містять 68%, 95% і 99,7% даних:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
З цього результату ми бачимо:
- 68% даних мають значення від 4,8 до 9,2
- 95% даних знаходяться в діапазоні від 2,6 до 11,4
- 99,7% даних знаходяться в діапазоні від 0,4 до 13,6
Приклад 2. Визначте, який відсоток даних знаходиться між певними значеннями
Уявіть, що ми маємо нормально розподілений набір даних із середнім значенням 100 і стандартним відхиленням 5.
Припустимо, ми хочемо знати, який відсоток даних потрапляє між значеннями 99 і 105 у цьому розподілі.
Ми можемо використати функцію pnorm( ), щоб знайти відповідь:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
Ми бачимо, що 42,06% даних потрапляє між значеннями 99 і 105 для цього розподілу.
Додаткові ресурси
Як застосувати емпіричне правило в Excel
Проблеми у вивченні емпіричних правил
Правила калькулятора