Что такое условное распределение в статистике?
Если X и Y — две совместно распределенные случайные величины , то условное распределение Y при заданном X — это распределение вероятностей Y , когда X известно как определенное значение.
Например, в следующей двусторонней таблице показаны результаты опроса 100 человек, какой вид спорта они предпочитают: бейсбол, баскетбол или футбол.
Если мы хотим узнать вероятность того, что человек предпочитает определенный вид спорта, учитывая , что он мужчина, то это пример условного распределения.
Значение одной случайной величины известно (человек — мужчина), но значение другой случайной величины неизвестно (мы не знаем его любимый вид спорта).
Чтобы найти условное распределение спортивных предпочтений среди мужчин, нам бы просто посмотреть значения линии для мужчин в таблице:
Условное распределение будет рассчитываться следующим образом:
- Мужчины, предпочитающие бейсбол: 13/48 = 0,2708.
- Мужчины, предпочитающие баскетбол: 15/48 = 0,3125.
- Мужчины, предпочитающие футбол: 20/48 = 0,4167.
Обратите внимание, что сумма вероятностей составляет 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.
Мы можем использовать это условное распределение, чтобы ответить на такие вопросы, как: Учитывая, что человек — мужчина, какова вероятность того, что бейсбол станет его любимым видом спорта?
Из условного распределения, которое мы рассчитали ранее, мы видим, что вероятность равна 0,2708 .
Говоря техническим языком, когда мы рассчитываем условное распределение, мы говорим, что нас интересует определенная часть населения в целом. Субпопуляция в предыдущем примере состояла из мужчин:
И когда мы хотим вычислить вероятность, связанную с этой субпопуляцией, мы говорим, что нас интересует конкретный интересующий нас персонаж . Интересным персонажем в предыдущем примере был бейсбол:
Чтобы найти вероятность появления интересующего признака в субпопуляции, мы просто делим значение интересующего признака (например, 13) на общие значения субпопуляции (например, 48), чтобы получить 13/48 = 0,2708 .
Условные распределения и независимость
Мы можем сказать, что случайные величины X и Y независимы тогда и только тогда, когда условное распределение Y при заданном X для всех возможных реализаций X равно безусловному распределению Y.
Например, можем ли мы увидеть в предыдущей таблице, что тесты «предпочитает бейсбол» и «мужской» независимы?
Чтобы ответить на этот вопрос, посчитаем следующие вероятности:
- П (предпочитает бейсбол)
- P(предпочитает бейсбол | мужчина) «предпочитает бейсбол, учитывая, что они мужчины»
Вероятность того, что данный человек предпочитает бейсбол, равна:
- P (предпочитает бейсбол) = 36/100 = 0,36 .
Вероятность того, что данный индивидуум предпочитает бейсбол, учитывая, что он мужчина, равна
- P (предпочитает бейсбол | мужчина) = 13/48 = 0,2708 .
Поскольку P(предпочитает бейсбол) не равно P(предпочитает бейсбол | мужчина), случайные переменные спортивных предпочтений и пола не являются независимыми.
Зачем использовать условные распределения?
Распределения условной вероятности полезны, поскольку мы часто собираем данные для двух переменных (например, пола и спортивных предпочтений), но мы хотим ответить на вопросы о вероятности, когда знаем значение одной из переменных.
В предыдущем примере мы рассматривали сценарий, в котором мы знали, что данный человек — мужчина, и нам просто хотелось узнать вероятность того, что этот человек предпочтет бейсбол.
В реальной жизни есть много случаев, когда мы знаем значение переменной и можем использовать условное распределение, чтобы найти вероятность того, что другая переменная примет определенное значение.
Дополнительные ресурсы
Что такое маргинальное распределение?
Что такое совместное распределение вероятностей?
Как найти условную относительную частоту в таблице двойной записи