Jak zastosować praktyczną zasadę w r


Praktyczna reguła , czasami nazywana regułą 68-95-99,7, stwierdza, że dla danego zbioru danych o rozkładzie normalnym:

  • 68% wartości danych mieści się w obrębie jednego odchylenia standardowego średniej.
  • 95% wartości danych mieści się w granicach dwóch odchyleń standardowych od średniej.
  • 99,7% wartości danych mieści się w trzech odchyleniach standardowych od średniej.

W tym samouczku wyjaśniamy, jak zastosować praktyczną regułę w języku R do danego zbioru danych.

Stosując ogólną zasadę R

Funkcja pnorm() w R zwraca wartość funkcji gęstości skumulowanej rozkładu normalnego.

Ta funkcja wykorzystuje następującą podstawową składnię:

pnorm(q, średnia, sd)

Złoto:

  • q : wartość zmiennej losowej o rozkładzie normalnym
  • średnia : średnia dystrybucja
  • sd : odchylenie standardowe rozkładu

Możemy użyć następującej składni, aby znaleźć obszar pod krzywą rozkładu normalnego, który leży pomiędzy różnymi odchyleniami standardowymi:

 #find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

Na podstawie wyniku możemy potwierdzić:

  • 68% wartości danych mieści się w obrębie jednego odchylenia standardowego średniej.
  • 95% wartości danych mieści się w granicach dwóch odchyleń standardowych od średniej.
  • 99,7% wartości danych mieści się w trzech odchyleniach standardowych od średniej.

Poniższe przykłady pokazują, jak w praktyce stosować praktyczną regułę w przypadku różnych zbiorów danych.

Przykład 1: Zastosowanie reguły empirycznej do zbioru danych w R

Załóżmy, że mamy zbiór danych o rozkładzie normalnym ze średnią 7 i odchyleniem standardowym 2,2 .

Możemy użyć poniższego kodu, aby określić, które wartości zawierają 68%, 95% i 99,7% danych:

 #define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2*2.2; mean+2*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3*2.2; mean+3*2.2

[1] 0.4
[1] 13.6

Z tego wyniku możemy zobaczyć:

  • 68% danych mieści się w przedziale od 4,8 do 9,2
  • 95% danych mieści się w przedziale od 2,6 do 11,4
  • 99,7% danych mieści się w przedziale od 0,4 do 13,6

Przykład 2: Określ, jaki procent danych mieści się w określonych wartościach

Wyobraź sobie, że mamy zbiór danych o rozkładzie normalnym ze średnią 100 i odchyleniem standardowym 5.

Załóżmy, że chcemy wiedzieć, jaki procent danych mieści się w tym rozkładzie pomiędzy wartościami 99 a 105 .

Aby znaleźć odpowiedź, możemy użyć funkcji pnorm( ):

 #find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

Widzimy, że dla tego rozkładu 42,06% danych mieści się w przedziale od 99 do 105.

Dodatkowe zasoby

Jak zastosować regułę praktyczną w programie Excel
Problemy w praktyce praktycznych zasad
Zasady kalkulatora kciuka

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *