Cdf と pdf: 違いは何ですか?
このチュートリアルでは、統計における PDF (確率密度関数) と CDF (累積分布関数) の違いを簡単に説明します。
ランダム変数
PDF または CDF を定義する前に、まず確率変数を理解する必要があります。
通常 X で表される 確率変数は、その値がランダム プロセスの数値結果である変数です。確率変数には、離散変数と連続変数の 2 種類があります。
離散確率変数
離散確率変数は、0、1、2、3、4、5…100、100万などの可算数の個別の値のみを取ることができる変数です。離散確率変数の例をいくつか示します。
- コインを 20 回投げた後に裏が出た回数。
- サイコロを 100 回振った後に4 の目が出た回数。
連続確率変数
連続確率変数は、無限の数の可能な値を取ることができる変数です。連続確率変数の例をいくつか示します。
- 人の身長
- 動物の体重
- 1マイル歩くのにかかる時間
たとえば、人の身長は 60.2 インチ、65.2344 インチ、70.431222 インチなどになります。サイズの可能な値は無限にあります。
一般的な経験則:結果の数を数えることができる場合は、離散確率変数を扱っていることになります (たとえば、コインが表になった回数を数えます)。しかし、結果を測定できれば、連続確率変数 (測定値、身長、体重、時間など) を扱っていることになります。
確率密度関数
確率密度関数(pdf) は、確率変数が特定の値を取る確率を示します。
たとえば、サイコロを 1 回振ったとします。 xがサイコロが出た数字を表すとすると、結果の確率密度関数は次のように説明できます。
P(x < 1) : 0
P(x = 1) : 1/6
P(x = 2) : 1/6
P(x = 3) : 1/6
P(x = 4) : 1/6
P(x = 5) : 1/6
P(x = 6) : 1/6
P(x > 6) : 0
x は整数値のみを取ることができるため、これは離散確率変数の例であることに注意してください。
連続確率変数の場合、 xが正確な値を取る確率はゼロであるため、PDF を直接使用することはできません。
たとえば、特定のレストランのハンバーガーの重さが 4 分の 1 ポンド (0.25 ポンド) である確率を知りたいとします。重みは連続変数であるため、無限の数の値を取ることができます。
たとえば、特定のハンバーガーの実際の重さは、0.250001 ポンド、0.24 ポンド、または 0.2488 ポンドである可能性があります。特定のハンバーガーの重さがちょうど 0.25 ポンドになる確率は、本質的にはゼロです。
累積分布関数
累積分布関数(cdf) は、確率変数がx以下の値を取る確率を示します。
たとえば、サイコロを 1 回振ったとします。 xをサイコロが出た目の数とすると、出目の累積分布関数は次のように説明できます。
P(x ≤ 0) : 0
P(x ≤ 1) : 1/6
P(x ≤ 2) : 2/6
P(x ≤ 3) : 3/6
P(x ≤ 4) : 4/6
P(x ≤ 5) : 5/6
P(x ≤ 6) : 6/6
P(x > 6) : 0
xが6以下である確率は 6/6 で、1 に等しいことに注意してください。これは、サイコロが 100% の確率で 1、2、3、4、5、または 6 に当たるためです。
この例では離散確率変数を使用しますが、連続密度関数を連続確率変数に使用することもできます。
累積分布関数には次の特性があります。
- 確率変数が可能な最小値より小さい値を取る確率はゼロです。たとえば、サイコロが 1 未満の値に当たる確率はゼロです。
- 確率変数が可能な最大値以下の値を取る確率は 1 です。たとえば、サイコロが 1、2、3、4、5、または 6 の値に当たる確率は 1 です。これらの番号のいずれかに到達する必要があります。
- cdf は常に減少しません。つまり、サイコロが 1 以下の数字に当たる確率は 1/6、2 以下の数字に当たる確率は 2/6、サイコロが 1 以下の数字に当たる確率は 2/6 です。 3 以下の数値は 3/6 などです。累積確率は常に減少しません。
関連:グラフを使用して累積分布関数を視覚化できます。
CDF と PDF の関係
専門用語で言えば、確率密度関数 (pdf) は累積分布関数 (cdf) の導関数です。
さらに、負の無限大とxの間の pdf の曲線の下の面積は、cdf 上のxの値に等しくなります。
pdf と cdf の関係の詳細な説明、および pdf が cdf の微分である理由の証明については、統計学の教科書を参照してください。