卡方检验
本文解释了统计学中的卡方检验是什么以及它的用途。您还将了解如何进行卡方检验,以及逐步解决的练习。
什么是卡方检验?
卡方检验是一种统计检验,用于确定预期频率和观察到的频率之间是否存在统计显着差异。
从逻辑上讲,卡方检验统计量遵循卡方分布。因此,检验统计量的值必须与卡方分布的特定值进行比较。下面我们将看到如何执行卡方检验。
这种类型的统计检验也称为Pearson 卡方检验,有时用卡方分布的符号表示: χ2 检验。
卡方检验公式
卡方检验统计量等于观测值与期望值之差的平方和除以期望值。
因此,卡方检验的公式为:

金子:
- 
 是卡方检验统计量,遵循卡方分布  自由程度。 
- 
 是数据样本大小。 
- 
 是数据 i 的观测值。 
- 
 是数据 i 的期望值。 
假设检验卡方检验的原假设是观察值与期望值相等。另一方面,检验的备择假设是其中一个观测值与其期望值不同。
![Rendered by QuickLaTeX.com \begin{cases}H_0:O_i=E_i \quad \forall i\\[2ex]H_1:\exists \ O_i\neq E_i \end{cases}](https://statorials.org/wp-content/ql-cache/quicklatex.com-3ef850ed6bba6d33fed54194e3e675e4_l3.png)
因此,考虑到重要性水平

,计算出的检验统计量应与临界检验值进行比较,以确定是否拒绝原假设或备择假设:
- 如果检验统计量小于临界值
 ,拒绝备择假设(并接受原假设)。 
- 如果检验统计量大于临界值
 ,拒绝原假设(并接受备择假设)。 
![\begin{array}{l}\text{Si } \chi^2<\chi^2_{1-\alpha|k-1}\text{ se rechaza } H_1\\[3ex]\text{Si } \chi^2>\chi^2_{1-\alpha|k-1}\text{ se rechaza } H_0\end{array}” title=”Rendered by QuickLaTeX.com” height=”70″ width=”243″ style=”vertical-align: 0px;”></p>
</p>
<h2 class=](https://statorials.org/wp-content/ql-cache/quicklatex.com-6b48f7bb620dca865b7e652e81cc247a_l3.png) 卡方检验示例
卡方检验示例
一旦我们了解了卡方检验的定义及其公式是什么,下面将介绍一个逐步解决的示例,以便您可以了解如何执行此类统计检验。
- 店主说,他的销售额的 50% 是产品 A,他的销售额的 35% 是产品 B,他的销售额的 15% 是产品 C。但是,每种产品的销售单位是它们所展示的单位在下面的列联表中。分析业主的理论数据与实际收集的数据是否存在统计差异。
| 产品 | 观察到的销售额 (O i ) | 
|---|---|
| 产品A | 第453章 | 
| 产品B | 268 | 
| 产品C | 79 | 
| 全部的 | 800 | 
首先,我们需要计算店主期望的价值。为此,我们将每种产品的预期销售额百分比乘以已实现的总销售额:
![Rendered by QuickLaTeX.com \begin{array}{c}E_A=800\cdot 0,5=400\\[2ex]E_B=800\cdot 0,35=280\\[2ex]E_A=800\cdot 0,15=120\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-cfd0d5e1cc7a049ddd825c5db9eb4bec_l3.png)
因此,该问题的频数分布表如下:
| 产品 | 观察到的销售额 (O i ) | 预期销售额 (E i ) | 
|---|---|---|
| 产品A | 第453章 | 400 | 
| 产品B | 268 | 280 | 
| 产品C | 79 | 120 | 
| 全部的 | 800 | 800 | 
现在我们已经计算了所有值,我们应用卡方检验公式来计算检验统计量:
![Rendered by QuickLaTeX.com \begin{array}{c}\displaystyle\chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\\[6ex]\chi^2=\cfrac{(453-400)^2}{400}+\cfrac{(268-280)^2}{280}+\cfrac{(79-120)^2}{120}\\[6ex]\chi^2=7,02+0,51+14,00\\[6ex]\chi^2=21,53\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-8c76621fbe8504217dfe8ac55b2d6e67_l3.png)
一旦计算出检验统计量的值,我们就使用卡方分布表来查找检验的临界值。卡方分布有

自由度,所以如果我们选择一个显着性水平

检验的临界值如下:
![Rendered by QuickLaTeX.com \begin{array}{c}\chi^2_{1-\alpha|k-1}=\ \color{orange}\bm{?}\color{black}\\[4ex]\chi^2_{0,95|2}=5,991\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-1850e764fc71b1e7b49b0c4d8133ab89_l3.png)
因此,检验统计量 (21.53) 大于临界检验值 (5.991),因此拒绝原假设并接受备择假设。这意味着数据有很大差异,因此店主预期的销售额与实际销售额不同。
 卡方检验的解释
卡方检验的解释
卡方检验的解释不能仅根据获得的检验结果来进行,而必须与检验的临界值进行比较。
从逻辑上讲,计算出的检验统计量的值越小,观测数据与预期数据越相似。所以,如果卡方检验结果为0,则意味着观测值和期望值完全相同。另一方面,测试结果越大,这意味着观测值与期望值的差异越大。
然而,要确定两个数据集在统计上是否不同或相等,必须将计算出的检验值与临界检验值进行比较,以拒绝对比的原假设或备择假设。如果检验统计量小于分布的临界值,则拒绝备择假设。另一方面,如果检验统计量大于分布的临界值,则拒绝原假设。
