統計における条件付き分布とは何ですか?
XとY が2 つの共同分布確率変数である場合、 Xが特定の値であることがわかっている場合、 Xが与えられた場合のYの条件付き分布は、Y の確率分布になります。
たとえば、次の二元表は、100 人に野球、バスケットボール、サッカーのどのスポーツが好きかを尋ねたアンケートの結果を示しています。
男性であることを前提として、その人が特定のスポーツを好む確率を知りたい場合、これは条件付き分布の例です。
1 つの確率変数の値はわかっています (その人は男性です) が、もう 1 つの確率変数の値は不明です (彼の好きなスポーツがわかりません)。
男性間のスポーツの好みの条件付き分布を見つけるには、表内の男性の線の値を単純に調べます。
条件付き分布は次のように計算されます。
- 野球を好む男性: 13/48 = 0.2708
- バスケットボールを好む男性: 15/48 = 0.3125
- サッカーを好む男性: 20/48 = 0.4167
確率の合計は 1 になることに注意してください: 13/48 + 15/48 + 20/48 = 48/48 = 1。
この条件付き分布を使用して、次のような質問に答えることができます。ある個人が男性であるとすると、野球が彼の好きなスポーツである確率はどのくらいですか?
先ほど計算した条件付き分布から、確率は0.2708であることがわかります。
専門用語で言えば、条件付き分布を計算するとき、母集団全体のうちの特定の部分母集団に関心があると言えます。前の例の部分母集団は男性で構成されていました。
そして、この部分母集団に関連する確率を計算したいとき、 「関心のある特定の文字に関心がある」と言います。前の例で興味深いキャラクターは野球でした。
対象の形質が部分母集団に現れる確率を見つけるには、対象の形質の値 (例: 13) を部分母集団の合計値 (例: 48) で割って、 13/48 = 0.2708を取得します。
条件付き分布と独立性
確率変数XとY は、 Xが与えられた場合のYの条件付き分布が、 Xのすべての可能な実現に対して、 Yの無条件分布と等しい場合にのみ独立していると言えます。
たとえば、前の表では、「野球を好む」テストと「男性」テストが独立していることがわかりますか?
この質問に答えるために、次の確率を計算してみましょう。
- P(野球が好き)
- P(野球が好き | 男) 「男性なので野球が好き」
特定の個人が野球を好む確率は次のとおりです。
- P (野球を好む) = 36/100 = 0.36 。
特定の個人が男性であると仮定して、野球を好む確率は次のとおりです。
- P (野球を好む | 男性) = 13/48 = .2708 。
P(野球が好き) は P(野球が好き | 男性) と等しくないため、スポーツの好みと性別の確率変数は独立していません。
条件付き分布を使用する理由
条件付き確率分布は、2 つの変数 (性別やスポーツの好みなど) のデータを収集することが多いため便利ですが、変数の 1 つの値がわかっている場合は、確率に関する質問に答えたいと考えています。
前の例では、特定の個人が男性であることがわかっていて、この個人が野球を好む確率を知りたいというシナリオを検討しました。
実生活では、変数の値がわかっていて、条件付き分布を使用して別の変数が特定の値を取る確率を見つけることができるケースが数多くあります。