Cdf или pdf: в чем разница?
В этом руководстве дается простое объяснение разницы между PDF (функцией плотности вероятности) и CDF (кумулятивной функцией распределения) в статистике.
Случайные переменные
Прежде чем мы сможем определить PDF или CDF, нам сначала нужно понять случайные переменные.
Случайная переменная , обычно обозначаемая X, — это переменная, значения которой являются числовыми результатами случайного процесса. Существует два типа случайных величин: дискретные и непрерывные.
Дискретные случайные величины
Дискретная случайная величина — это переменная, которая может принимать только счетное количество различных значений, например 0, 1, 2, 3, 4, 5… 100, 1 миллион и т. д. Вот несколько примеров дискретных случайных величин:
- Сколько раз монета выпала решкой после того, как ее подбросили 20 раз.
- Сколько раз на кубике выпадает цифра 4 после 100 бросков.
Непрерывные случайные величины
Непрерывная случайная величина — это переменная, которая может принимать бесконечное количество возможных значений. Вот несколько примеров непрерывных случайных величин:
- Рост человека
- Вес животного
- Время, необходимое для прохождения мили
Например, рост человека может составлять 60,2 дюйма, 65,2344 дюйма, 70,431222 дюйма и т. д. Существует бесконечное количество возможных значений размера.
Общее эмпирическое правило: если вы можете подсчитать количество исходов, значит, вы работаете с дискретной случайной величиной (например, подсчитываете, сколько раз выпала монета орел). Но если вы можете измерить результат, вы работаете с непрерывной случайной величиной (например, измерением, ростом, весом, временем и т. д.).
Функции плотности вероятности
Функция плотности вероятности (pdf) сообщает нам вероятность того, что случайная величина примет определенное значение.
Например, предположим, что мы один раз бросаем игральную кость. Если мы обозначим x число, на которое выпал кубик, то функцию плотности вероятности результата можно описать следующим образом:
Р(х <1) : 0
Р(х = 1) : 1/6
Р(х = 2) : 1/6
Р(х = 3) : 1/6
Р(х = 4) : 1/6
Р(х = 5) : 1/6
Р(х = 6) : 1/6
Р(х > 6) : 0
Обратите внимание, что это пример дискретной случайной величины, поскольку x может принимать только целые значения.
Для непрерывной случайной величины мы не можем использовать PDF напрямую, поскольку вероятность того, что x примет точное значение, равна нулю.
Например, предположим, что мы хотим узнать вероятность того, что гамбургер из определенного ресторана весит четверть фунта (0,25 фунта). Поскольку вес является непрерывной переменной, он может принимать бесконечное количество значений.
Например, данный гамбургер может фактически весить 0,250001 фунта, или 0,24 фунта, или 0,2488 фунта. Вероятность того, что данный гамбургер будет весить ровно 0,25 фунта, практически равна нулю.
Кумулятивные функции распределения
Кумулятивная функция распределения (cdf) сообщает нам вероятность того, что случайная величина примет значение, меньшее или равное x .
Например, предположим, что мы один раз бросаем игральную кость. Если мы обозначим x число, на которое выпал кубик, то кумулятивную функцию распределения результата можно описать следующим образом:
Р(х ≤ 0) : 0
Р(х ≤ 1) : 1/6
Р(х ≤ 2) : 2/6
Р(х ≤ 3) : 3/6
Р(х ≤ 4) : 4/6
Р(х ≤ 5) : 5/6
Р(х ≤ 6) : 6/6
Р(х > 6) : 0
Обратите внимание, что вероятность того, что x меньше или равна 6 , равна 6/6, что равно 1. Это связано с тем, что на кубике со 100% вероятностью выпадет 1, 2, 3, 4, 5 или 6.
В этом примере используется дискретная случайная величина, но для непрерывной случайной величины также можно использовать непрерывную функцию плотности.
Кумулятивные функции распределения обладают следующими свойствами:
- Вероятность того, что случайная величина примет значение меньше наименьшего возможного значения, равна нулю. Например, вероятность того, что на кубике выпадет значение меньше 1, равна нулю.
- Вероятность того, что случайная величина примет значение, меньшее или равное максимально возможному значению, равна единице. Например, вероятность того, что на кубике выпадет значение 1, 2, 3, 4, 5 или 6, равна единице. Он должен приземлиться на одно из этих чисел.
- CDF всегда не убывает. То есть вероятность того, что на игральной кости выпадет число меньше или равное 1, равна 1/6, вероятность того, что на игральной кости выпадет число меньше или равное 2, равна 2/6, вероятность выпадения числа, меньшего или равного 1, равна 1/6. число меньше или равное 3 равно 3/6 и т. д. Кумулятивные вероятности всегда не убывают.
Связанный: вы можете использовать стрельчатую диаграмму для визуализации кумулятивной функции распределения.
Связь между CDF и PDF
С технической точки зрения функция плотности вероятности (pdf) является производной кумулятивной функции распределения (cdf).
Кроме того, площадь под кривой PDF-файла между отрицательной бесконечностью и x равна значению x в CDF.
Подробное объяснение взаимосвязи между PDF и CDF, а также доказательство того, почему PDF является производным от CDF, можно найти в учебнике по статистике.