卡方检验
本文解释了统计学中的卡方检验是什么以及它的用途。您还将了解如何进行卡方检验,以及逐步解决的练习。
什么是卡方检验?
卡方检验是一种统计检验,用于确定预期频率和观察到的频率之间是否存在统计显着差异。
从逻辑上讲,卡方检验统计量遵循卡方分布。因此,检验统计量的值必须与卡方分布的特定值进行比较。下面我们将看到如何执行卡方检验。
这种类型的统计检验也称为Pearson 卡方检验,有时用卡方分布的符号表示: χ2 检验。
卡方检验公式
卡方检验统计量等于观测值与期望值之差的平方和除以期望值。
因此,卡方检验的公式为:
金子:
-
是卡方检验统计量,遵循卡方分布
自由程度。
-
是数据样本大小。
-
是数据 i 的观测值。
-
是数据 i 的期望值。
假设检验卡方检验的原假设是观察值与期望值相等。另一方面,检验的备择假设是其中一个观测值与其期望值不同。
因此,考虑到重要性水平
,计算出的检验统计量应与临界检验值进行比较,以确定是否拒绝原假设或备择假设:
- 如果检验统计量小于临界值
,拒绝备择假设(并接受原假设)。
- 如果检验统计量大于临界值
,拒绝原假设(并接受备择假设)。
卡方检验示例
一旦我们了解了卡方检验的定义及其公式是什么,下面将介绍一个逐步解决的示例,以便您可以了解如何执行此类统计检验。
- 店主说,他的销售额的 50% 是产品 A,他的销售额的 35% 是产品 B,他的销售额的 15% 是产品 C。但是,每种产品的销售单位是它们所展示的单位在下面的列联表中。分析业主的理论数据与实际收集的数据是否存在统计差异。
产品 | 观察到的销售额 (O i ) |
---|---|
产品A | 第453章 |
产品B | 268 |
产品C | 79 |
全部的 | 800 |
首先,我们需要计算店主期望的价值。为此,我们将每种产品的预期销售额百分比乘以已实现的总销售额:
因此,该问题的频数分布表如下:
产品 | 观察到的销售额 (O i ) | 预期销售额 (E i ) |
---|---|---|
产品A | 第453章 | 400 |
产品B | 268 | 280 |
产品C | 79 | 120 |
全部的 | 800 | 800 |
现在我们已经计算了所有值,我们应用卡方检验公式来计算检验统计量:
一旦计算出检验统计量的值,我们就使用卡方分布表来查找检验的临界值。卡方分布有
自由度,所以如果我们选择一个显着性水平
检验的临界值如下:
因此,检验统计量 (21.53) 大于临界检验值 (5.991),因此拒绝原假设并接受备择假设。这意味着数据有很大差异,因此店主预期的销售额与实际销售额不同。
卡方检验的解释
卡方检验的解释不能仅根据获得的检验结果来进行,而必须与检验的临界值进行比较。
从逻辑上讲,计算出的检验统计量的值越小,观测数据与预期数据越相似。所以,如果卡方检验结果为0,则意味着观测值和期望值完全相同。另一方面,测试结果越大,这意味着观测值与期望值的差异越大。
然而,要确定两个数据集在统计上是否不同或相等,必须将计算出的检验值与临界检验值进行比较,以拒绝对比的原假设或备择假设。如果检验统计量小于分布的临界值,则拒绝备择假设。另一方面,如果检验统计量大于分布的临界值,则拒绝原假设。