Jak zastosować praktyczną zasadę w r
Praktyczna reguła , czasami nazywana regułą 68-95-99,7, stwierdza, że dla danego zbioru danych o rozkładzie normalnym:
- 68% wartości danych mieści się w obrębie jednego odchylenia standardowego średniej.
- 95% wartości danych mieści się w granicach dwóch odchyleń standardowych od średniej.
- 99,7% wartości danych mieści się w trzech odchyleniach standardowych od średniej.
W tym samouczku wyjaśniamy, jak zastosować praktyczną regułę w języku R do danego zbioru danych.
Stosując ogólną zasadę R
Funkcja pnorm() w R zwraca wartość funkcji gęstości skumulowanej rozkładu normalnego.
Ta funkcja wykorzystuje następującą podstawową składnię:
pnorm(q, średnia, sd)
Złoto:
- q : wartość zmiennej losowej o rozkładzie normalnym
- średnia : średnia dystrybucja
- sd : odchylenie standardowe rozkładu
Możemy użyć następującej składni, aby znaleźć obszar pod krzywą rozkładu normalnego, który leży pomiędzy różnymi odchyleniami standardowymi:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
Na podstawie wyniku możemy potwierdzić:
- 68% wartości danych mieści się w obrębie jednego odchylenia standardowego średniej.
- 95% wartości danych mieści się w granicach dwóch odchyleń standardowych od średniej.
- 99,7% wartości danych mieści się w trzech odchyleniach standardowych od średniej.
Poniższe przykłady pokazują, jak w praktyce stosować praktyczną regułę w przypadku różnych zbiorów danych.
Przykład 1: Zastosowanie reguły empirycznej do zbioru danych w R
Załóżmy, że mamy zbiór danych o rozkładzie normalnym ze średnią 7 i odchyleniem standardowym 2,2 .
Możemy użyć poniższego kodu, aby określić, które wartości zawierają 68%, 95% i 99,7% danych:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
Z tego wyniku możemy zobaczyć:
- 68% danych mieści się w przedziale od 4,8 do 9,2
- 95% danych mieści się w przedziale od 2,6 do 11,4
- 99,7% danych mieści się w przedziale od 0,4 do 13,6
Przykład 2: Określ, jaki procent danych mieści się w określonych wartościach
Wyobraź sobie, że mamy zbiór danych o rozkładzie normalnym ze średnią 100 i odchyleniem standardowym 5.
Załóżmy, że chcemy wiedzieć, jaki procent danych mieści się w tym rozkładzie pomiędzy wartościami 99 a 105 .
Aby znaleźć odpowiedź, możemy użyć funkcji pnorm( ):
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
Widzimy, że dla tego rozkładu 42,06% danych mieści się w przedziale od 99 do 105.
Dodatkowe zasoby
Jak zastosować regułę praktyczną w programie Excel
Problemy w praktyce praktycznych zasad
Zasady kalkulatora kciuka