Что такое условное распределение в статистике?


Если X и Y — две совместно распределенные случайные величины , то условное распределение Y при заданном X — это распределение вероятностей Y , когда X известно как определенное значение.

Например, в следующей двусторонней таблице показаны результаты опроса 100 человек, какой вид спорта они предпочитают: бейсбол, баскетбол или футбол.

Если мы хотим узнать вероятность того, что человек предпочитает определенный вид спорта, учитывая , что он мужчина, то это пример условного распределения.

Значение одной случайной величины известно (человек — мужчина), но значение другой случайной величины неизвестно (мы не знаем его любимый вид спорта).

Чтобы найти условное распределение спортивных предпочтений среди мужчин, нам бы просто посмотреть значения линии для мужчин в таблице:

Пример условного распределения

Условное распределение будет рассчитываться следующим образом:

  • Мужчины, предпочитающие бейсбол: 13/48 = 0,2708.
  • Мужчины, предпочитающие баскетбол: 15/48 = 0,3125.
  • Мужчины, предпочитающие футбол: 20/48 = 0,4167.

Обратите внимание, что сумма вероятностей составляет 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.

Мы можем использовать это условное распределение, чтобы ответить на такие вопросы, как: Учитывая, что человек — мужчина, какова вероятность того, что бейсбол станет его любимым видом спорта?

Из условного распределения, которое мы рассчитали ранее, мы видим, что вероятность равна 0,2708 .

Говоря техническим языком, когда мы рассчитываем условное распределение, мы говорим, что нас интересует определенная часть населения в целом. Субпопуляция в предыдущем примере состояла из мужчин:

Субпопуляция для условного распределения

И когда мы хотим вычислить вероятность, связанную с этой субпопуляцией, мы говорим, что нас интересует конкретный интересующий нас персонаж . Интересным персонажем в предыдущем примере был бейсбол:

Условное распределение в статистике

Чтобы найти вероятность появления интересующего признака в субпопуляции, мы просто делим значение интересующего признака (например, 13) на общие значения субпопуляции (например, 48), чтобы получить 13/48 = 0,2708 .

Условные распределения и независимость

Мы можем сказать, что случайные величины X и Y независимы тогда и только тогда, когда условное распределение Y при заданном X для всех возможных реализаций X равно безусловному распределению Y.

Например, можем ли мы увидеть в предыдущей таблице, что тесты «предпочитает бейсбол» и «мужской» независимы?

Чтобы ответить на этот вопрос, посчитаем следующие вероятности:

  • П (предпочитает бейсбол)
  • P(предпочитает бейсбол | мужчина) «предпочитает бейсбол, учитывая, что они мужчины»

Вероятность того, что данный человек предпочитает бейсбол, равна:

  • P (предпочитает бейсбол) = 36/100 = 0,36 .

Вероятность того, что данный индивидуум предпочитает бейсбол, учитывая, что он мужчина, равна

  • P (предпочитает бейсбол | мужчина) = 13/48 = 0,2708 .

Поскольку P(предпочитает бейсбол) не равно P(предпочитает бейсбол | мужчина), случайные переменные спортивных предпочтений и пола не являются независимыми.

Зачем использовать условные распределения?

Распределения условной вероятности полезны, поскольку мы часто собираем данные для двух переменных (например, пола и спортивных предпочтений), но мы хотим ответить на вопросы о вероятности, когда знаем значение одной из переменных.

В предыдущем примере мы рассматривали сценарий, в котором мы знали, что данный человек — мужчина, и нам просто хотелось узнать вероятность того, что этот человек предпочтет бейсбол.

В реальной жизни есть много случаев, когда мы знаем значение переменной и можем использовать условное распределение, чтобы найти вероятность того, что другая переменная примет определенное значение.

Дополнительные ресурсы

Что такое маргинальное распределение?
Что такое совместное распределение вероятностей?
Как найти условную относительную частоту в таблице двойной записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *