概率分布

经过本杰明·安德森博 3 8 月, 2023 可能性 0 条评论

本文解释了统计学中的概率分布。因此，您将找到概率分布的定义、概率分布的示例以及不同类型的概率分布。

什么是概率分布？

概率分布是定义随机变量每个值出现的概率的函数。简而言之，概率分布是描述随机实验所有可能结果的概率的数学函数。

例如，让

因此，概率分布在概率论和统计学中经常使用，因为它们用于计算样本空间中不同事件的概率。

概率分布的类型

概率分布可以分为两大类：离散分布和连续分布。

离散概率分布：该分布只能在一个区间内取可数个值。通常，离散概率分布只能取整数值，即没有小数位。
连续概率分布：该分布可以在一个区间内取无限多个值。一般来说，连续概率分布可以取小数值。

离散概率分布

离散概率分布是定义离散随机变量的概率的分布。因此，离散概率分布只能取有限个值（通常是整数值）。

离散均匀分布

离散均匀分布是一种离散概率分布，其中所有值都是等概率的，即在离散均匀分布中，所有值出现的概率相同。

例如，骰子的滚动可以用离散均匀分布来定义，因为所有可能的结果（1、2、3、4、5 或 6）具有相同的发生概率。

一般来说，离散均匀分布有两个特征参数a和b ，它们定义了分布可以取的可能值的范围。因此，当变量由离散均匀分布定义时，它被写为Uniform(a,b) 。

$X\sim \text{Uniforme}(a,b)$

离散均匀分布可以用来描述随机实验，因为如果所有结果具有相同的概率，则意味着实验是随机的。

➤了解更多：离散均匀分布

伯努利分布

伯努利分布，也称为二分分布，是一种概率分布，表示只能有两种结果的离散变量：“成功”或“失败”。

在伯努利分布中，“成功”是我们期望的结果，其值为 1，而“失败”的结果是与预期不同的结果，其值为 0。因此，如果“结果的概率” “成功”的结果为p ，“失败”结果的概率为q=1-p 。

$\begin{array}{c}X\sim \text{Bernoulli}(p)\\[2ex]\begin{array}{l} \text{\'Exito}\ \color{orange}\bm{\longrightarrow}\color{black} \ P[X=1]=p\\[2ex]\text{Fracaso}\ \color{orange}\bm{\longrightarrow}\color{black} \ P[X=0]=q=1-p\end{array}\end{array}$

伯努利分布以瑞士统计学家雅各布·伯努利的名字命名。

在统计学中，伯努利分布主要有一个应用：定义实验的概率，其中只有两种可能的结果：成功和失败。因此，使用伯努利分布的实验称为伯努利测试或伯努利实验。

➤了解更多信息：伯努利分布

二项分布

二项分布，也称为二项分布，是一种概率分布，在以恒定的成功概率进行一系列独立的二分实验时，统计成功的次数。换句话说，二项分布是描述一系列伯努利试验的成功结果数量的分布。

例如，抛硬币25次，出现“正面”的次数就是二项式分布。

一般来说，执行的实验总数由参数n定义，而p是每个实验成功的概率。因此，服从二项式分布的随机变量可写为：

$X\sim\text{Bin}(n,p)$

请注意，在二项分布中，完全相同的实验重复n次，并且实验彼此独立，因此每次实验成功的概率是相同的(p) 。

➤了解更多：二项式分布

鱼类分布

泊松分布是一种概率分布，定义了一段时间内发生给定数量的事件的概率。换句话说，泊松分布用于对随机变量进行建模，这些随机变量描述现象在时间间隔内重复的次数。

例如，电话交换机每分钟接收的呼叫数量是一个离散随机变量，可以使用泊松分布来定义。

泊松分布有一个特征参数，用希腊字母 λ 表示，表示所研究的事件在给定时间间隔内预计发生的次数。

$X\sim \text{Poisson}(\lambda)$

➤了解更多：鱼类分布

多项分布

多项式分布（或多项式分布）是一种概率分布，描述了经过多次试验后，若干互斥事件发生给定次数的概率。

也就是说，如果一个随机实验可以产生三个或更多的排他事件，并且每个事件单独发生的概率已知，则使用多项分布来计算当进行多个实验时，一定数量的事件发生的概率。每次的时间。

因此，多项分布是二项分布的推广。

➤了解更多：多项分布

几何分布

几何分布是一种概率分布，定义了获得第一个成功结果所需的伯努利试验次数。也就是说，几何分布模型是重复伯努利实验直到其中一个实验获得肯定结果的过程。

例如，在高速公路上行驶直到看到黄色汽车的汽车数量是几何分布。

请记住，伯努利测试是一种有两种可能结果的实验：“成功”和“失败”。因此，如果“成功”的概率为p ，则“失败”的概率为q=1-p 。

因此，几何分布取决于参数p ，它是所有进行的实验成功的概率。此外，所有实验的概率p都是相同的。

$X\sim\text{Geom\'etrica}(p)$

➤了解更多：几何分布

负二项分布

负二项分布是一种概率分布，描述获得给定数量的正结果所需的伯努利试验次数。

因此，负二项式分布具有两个特征参数： r是期望的成功结果的数量， p是执行的每个伯努利实验的成功概率。

$X\sim \text{BN}(r,p)$

因此，负二项式分布定义了一个过程，其中根据需要进行尽可能多的伯努利试验以获得正结果。此外，所有这些伯努利试验都是独立的，并且成功的概率恒定。

例如，服从负二项式分布的随机变量是骰子必须滚动的次数，直到数字 6 滚动 3 次为止。

➤了解更多：负二项分布

超几何分布

超几何分布是一种概率分布，描述了在不替换总体中的n 个元素的情况下随机提取的成功案例的数量。

也就是说，超几何分布用于计算当从总体中提取n个元素而不替换其中任何一个时获得x次成功的概率。

因此，超几何分布具有三个参数：

N ：总体中元素的数量（N = 0, 1, 2,…）。
K ：是最大成功案例数（K = 0, 1, 2,…,N）。由于在超几何分布中，一个元素只能被视为“成功”或“失败”，因此NK是失败案例的最大数量。
n ：是执行的无替换读取的次数。

$X \sim HG(N,K,n)$

➤了解更多：超几何分布

连续概率分布

连续概率分布是一种可以取区间内任何值（包括小数值）的概率分布。因此，连续概率分布定义了连续随机变量的概率。

均匀连续分布

连续均匀分布也称为矩形分布，是一种连续概率分布，其中所有值出现的概率相同。换句话说，连续均匀分布是概率在一个区间上均匀分布的分布。

连续均匀分布用于描述具有恒定概率的连续变量。类似地，连续均匀分布用于定义随机过程，因为如果所有结果具有相同的概率，则意味着结果存在随机性。

连续均匀分布有两个特征参数a和b ，它们定义等概率区间。因此，连续均匀分布的符号为U(a,b) ，其中a和b是分布的特征值。

$X\sim U(a,b)$

例如，如果随机实验的结果可以取 5 到 9 之间的任何值，并且所有可能的结果具有相同的发生概率，则可以使用连续均匀分布 U(5.9) 来模拟该实验。

➤了解更多：连续均匀分布

正态分布

正态分布是一种连续概率分布，其图形呈钟形且关于其均值对称。在统计学中，正态分布用于对具有截然不同特征的现象进行建模，这就是该分布如此重要的原因。

事实上，在统计学中，正态分布被认为是迄今为止所有概率分布中最重要的分布，因为它不仅可以对大量现实世界的现象进行建模，而且正态分布还可以用来近似其他类型的概率分布。分布。在某些条件下。

正态分布的符号是大写字母N。因此，为了表示一个变量服从正态分布，用字母N表示，并在括号中添加其算术平均值和标准差的值。

$X\sim N(\mu,\sigma)$

正态分布有许多不同的名称，包括高斯分布、高斯分布和拉普拉斯高斯分布。

➤了解更多：正态分布

对数正态分布

对数正态分布或对数正态分布是一种概率分布，定义其对数服从正态分布的随机变量。

因此，如果变量 X 服从正态分布，则指数函数 e ^x服从对数正态分布。

$X\sim \text{Lognormal}(\mu,\sigma^2)$

请注意，对数正态分布只能在变量值为正时使用，因为对数是一种仅接受一个正参数的函数。

在对数正态分布在统计中的不同应用中，我们区分使用该分布来分析金融投资和进行可靠性分析。

对数正态分布也称为Tinaut 分布，有时也写为对数正态分布或对数正态分布。

➤了解更多：对数正态分布

卡方分布

卡方分布是一种概率分布，其符号为 χ2。更准确地说，卡方分布是k 个服从正态分布的独立随机变量的平方和。

因此，卡方分布有k 个自由度。因此，卡方分布的自由度与其所代表的正态分布变量的平方和一样多。

$\displaystyle X\sim\chi^2_k \ \color{orange}\bm{\longrightarrow}\color{black}\ \begin{array}{l}\text{Distribuci\'on chi-cuadrado}\\[2ex]\text{con k grados de libertad}\end{array}$

卡方分布也称为皮尔逊分布。

卡方分布广泛用于统计推断，例如假设检验和置信区间。下面我们将看到这种概率分布有哪些应用。

➤了解更多：卡方分布

学生 t 分布

学生 t 分布是统计学中广泛使用的概率分布。具体来说，学生 t 分布在学生 t 检验中用于确定两个样本均值之间的差异并建立置信区间。

Student t 分布是由统计学家 William Sealy Gosset 于 1908 年以笔名“Student”开发的。

Student t 分布由其自由度数定义，自由度数是通过从观测总数中减去 1 个单位而获得的。因此，确定 Student t 分布自由度的公式为ν=n-1 。

$\begin{array}{c}\nu=n-1\\[2ex]X\sim t_\nu\end{array}$

➤了解更多：学生分布

斯内装饰 F 分销

Snedecor F 分布，也称为Fisher–Snedecor F 分布或简称F 分布，是一种用于统计推断，特别是方差分析的连续概率分布。

Snedecor F 分布的属性之一是它由两个实数参数m和n的值定义，这两个参数表示其自由度。因此，Snedecor 分布 F 的符号为F _m,n ，其中m和n是定义分布的参数。

$F_{m,n}\qquad m,n>0″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”139″ style=”vertical-align: -6px;”> 从数学上讲，Snedecor F 分布等于一个卡方分布与其自由度之间的商除以另一个卡方分布与其自由度之间的商。因此，定义 Snedecor F 分布的公式如下： <p class=$ $\left.\begin{array}{c} X\sim \chi_m^2\\[2ex] Y\sim \chi_n^2\end{array}\right\}\color{orange}\bm{\longrightarrow}\color{black}\ F_{m,n}= \cfrac{X/m}{Y/n}$

Fisher-Snedecor F 分布得名于英国统计学家 Ronald Fisher 和美国统计学家 George Snedecor。

在统计学中，Fisher-Snedecor F 分布有不同的应用。例如，Fisher-Snedecor F 分布用于比较不同的线性回归模型，该概率分布用于方差分析 (ANOVA)。

➤了解更多信息： Snedecor F Distribution

指数分布

指数分布是一种连续概率分布，用于对随机现象发生的等待时间进行建模。

更准确地说，指数分布可以描述遵循泊松分布的两种现象之间的等待时间。因此，指数分布与泊松分布密切相关。

指数分布有一个特征参数，用希腊字母 λ 表示，表示所研究的事件在给定时间段内预计发生的次数。

$X\sim \text{Exp}(\lambda)$

同样，指数分布也用于对故障发生之前的时间进行建模。因此，指数分布在可靠性和生存理论中有多种应用。

➤了解更多：指数分布

贝塔分布

beta 分布是在区间 (0,1) 中定义的概率分布，并由两个正参数 α 和 β 参数化。换句话说，β分布的值取决于参数α和β。

因此，β分布用于定义值在0和1之间的连续随机变量。

有几种表示法表明连续随机变量受 beta 分布支配，最常见的是：

$\begin{array}{c}X\sim B(\alpha,\beta)\\[2ex]X\sim Beta(\alpha,\beta)\\[2ex]X\sim \beta_{\alpha,\beta}\end{array}$

在统计学中，β 分布的应用非常广泛。例如，β 分布用于研究不同样本中百分比的变化。同样，在项目管理中，β分布用于进行Pert分析。

➤了解更多： Beta 分布

伽马分布

伽马分布是由两个特征参数 α 和 λ 定义的连续概率分布。换句话说，伽马分布取决于其两个参数的值：α 是形状参数，λ 是尺度参数。

伽马分布的符号是大写希腊字母 Г。因此，如果随机变量服从伽玛分布，则可以写成如下：

$X\sim \Gamma(\alpha,\lambda)$

伽玛分布还可以使用形状参数 k = α 和反比例参数 θ = 1/λ 进行参数化。在所有情况下，定义伽马分布的两个参数都是正实数。

通常，伽马分布用于对右偏数据集进行建模，以便图左侧的数据更加集中。例如，伽玛分布用于对电气元件的可靠性进行建模。

➤了解更多：伽马分布

威布尔分布

威布尔分布是由两个特征参数定义的连续概率分布：形状参数 α 和尺度参数 λ。

在统计学中，威布尔分布主要用于生存分析。同样，威布尔分布在不同领域有许多应用。

$X\sim\text{Weibull}(\alpha,\lambda)$

据作者介绍，威布尔分布也可以用三个参数进行参数化。然后，添加第三个参数，称为阈值，该参数指示分布图开始的横坐标。

威布尔分布以瑞典人 Waloddi Weibull 的名字命名，他在 1951 年对其进行了详细描述。然而，威布尔分布是由 Maurice Fréchet 于 1927 年发现的，并由 Rosin 和 Rammler 于 1933 年首次应用。

➤了解更多信息：威布尔分布

帕累托分布

帕累托分布是统计学中用于对帕累托原理建模的连续概率分布。因此，帕累托分布是一种概率分布，其中少数值的出现概率远高于其余值。

请记住，帕累托定律，也称为 80-20 规则，是一种统计原理，它指出一种现象的大部分原因是由一小部分人口造成的。

Pareto分布有两个特征参数：尺度参数x _m和形状参数α。

$X\sim \text{Pareto}(\alpha,x_m)$

帕累托分布最初是用来描述人口内部财富的分配的，因为大部分财富是由一小部分人口造成的。但目前帕累托分布有很多应用，例如在质量控制、经济学、科学、社会领域等。

➤了解更多：帕累托分布

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多