R で経験則を適用する方法
68-95-99.7 ルールとも呼ばれる経験則では、正規分布を持つ特定のデータ セットについて次のように述べられています。
- データ値の68% は平均値の 1 標準偏差以内にあります。
- データ値の95% は平均値の 2 標準偏差以内にあります。
- データ値の99.7% が平均値の 3 標準偏差以内に収まります。
このチュートリアルでは、R の経験則を特定のデータセットに適用する方法を説明します。
R に経験則を適用する
R のpnorm()関数は、正規分布の累積密度関数の値を返します。
この関数は次の基本構文を使用します。
pnorm(q, 平均, sd)
金:
- q : 正規分布する確率変数の値
- 平均値: 平均分布
- sd : 分布の標準偏差
次の構文を使用して、さまざまな標準偏差の間にある正規分布曲線の下の領域を見つけることができます。
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
結果から次のことが確認できます。
- データ値の68% は平均値の 1 標準偏差以内にあります。
- データ値の95% は平均値の 2 標準偏差以内にあります。
- データ値の99.7% が平均値の 3 標準偏差以内に収まります。
次の例は、実際にさまざまなデータ セットで経験則を使用する方法を示しています。
例 1: R のデータセットに経験則を適用する
平均が7 、標準偏差が2.2の正規分布データセットがあるとします。
次のコードを使用して、どの値にデータの 68%、95%、99.7% が含まれているかを判断できます。
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
この出力から次のことがわかります。
- データの 68% は4.8 ~ 9.2の間にあります。
- データの 95% は2.6 ~ 11.4の間にあります。
- データの 99.7% は0.4 ~ 13.6の間にあります。
例 2: 特定の値の間にデータの何パーセントが含まれるかを決定する
平均が 100、標準偏差が 5 の正規分布したデータセットがあると想像してください。
この分布の値99と105の間にデータの何パーセントが含まれるかを知りたいとします。
pnorm( ) 関数を使用して答えを見つけることができます。
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
この分布では、データの42.06%が値 99 と 105 の間にあることがわかります。