P值和统计显着性的解释


在统计学中, p值通常用于t检验、卡方检验、回归分析、方差分析和各种其他统计方法的假设检验。

尽管它们很常见,但人们经常错误地解释 p 值,这可能会在解释分析或研究结果时导致错误。

本文解释了如何以清晰实用的方式理解和解释 p 值。

假设检验

要理解 p 值,我们首先需要理解假设检验的概念。

检验假设是一种正式的统计检验,我们用它来拒绝或未能拒绝假设。例如,我们可能假设一种新药物、方法或程序比现有药物、方法或程序具有某些优势。

为了测试这一点,我们可以使用原假设和备择假设进行假设检验:

零假设——新方法和旧方法之间没有影响或差异。

替代假设——新方法和旧方法之间存在效果或差异。

p 值表示在给定样本数据的情况下原假设的可信度。具体来说,假设原假设为真,p 值告诉我们获得至少与我们在样本数据中实际观察到的效果一样大的效果的概率。

如果假设检验的 p 值足够低,我们可以拒绝原假设。具体来说,当我们进行假设检验时,我们需要从一开始就选择一个显着性水平。显着性水平的常见选择为 0.01、0.05 和 0.10。

如果 p 值低于我们的显着性水平,那么我们可以拒绝原假设。

否则,如果 p 值等于或大于我们的显着性水平,我们将无法拒绝原假设。

如何解释 P 值

p 值的经典定义是:

p 值是在原假设成立的情况下观察到至少与样本统计量一样极端的样本统计量的概率。

例如,假设一家工厂声称生产平均重量为 200 磅的轮胎。审核员假设该工厂生产的轮胎的实际平均重量相差 200 磅。因此,他进行了假设检验,发现检验的 p 值为 0.04。以下是如何解释此 p 值:

如果工厂实际生产平均重量为 200 磅的轮胎,那么由于随机抽样误差,所有审核中将有 4% 或更多达到样本中观察到的效果。这告诉我们,如果工厂实际生产平均重量为200磅的轮胎,那么获得审核员获得的样本数据将是相当罕见的。

根据该假设检验中使用的显着性级别,审核员可能会拒绝原假设,即该工厂生产的轮胎的实际平均重量确实为 200 磅。他在审计过程中获得的数据样本与原假设不太相符。

如何解释 P 值

关于 p 值的最大误解是,它们等同于拒绝真零假设而犯错误的概率(称为 I 型错误)。

p值无法匹配错误率的主要原因有两个:

1. P值的计算基于以下假设:原假设为真,并且样本数据与原假设之间的差异仅仅是由于机会造成的。所以p值不能告诉你零值是真还是假的概率,因为从计算的角度来看它是100%真实的。

2.虽然较低的 p 值表明您的样本数据不太可能假设零为真,但 p 值仍然无法告诉您以下哪种情况更有可能发生:

  • null 为 false
  • 零值是正确的,但你得到了一个奇怪的样本

与前面的示例相比,以下是解释 p 值的正确和错误方法:

  • 正确解释:假设工厂生产平均重量为 200 磅的轮胎,您会得到样本中观察到的差异,或者由于随机抽样而在 4% 的审核中得到更极端的差异。
  • 错误解释:如果您拒绝原假设,则有 4% 的可能性您会犯错误。

解释 P 值的示例

以下示例说明了在假设检验的背景下解释 p 值的正确方法。

实施例1

一家电话公司声称 90% 的客户对其服务感到满意。为了验证这一说法,一位独立研究人员随机抽取了 200 名顾客,询问他们对服务是否满意,85% 的人表示满意。与该数据样本相关的 p 值为 0.018。

p 值的正确解释:假设 90% 的客户实际上对他们的服务感到满意,研究人员将获得在样本中获得的观察到的差异,或者由于随机抽样而在 1.8% 的审核中获得更极端的差异错误。 。

实施例2

一家公司发明了一种新的手机电池。该公司声称,这种新电池的运行时间将比旧电池至少长10分钟。为了验证这一说法,研究人员对 80 个新电池和 80 个旧电池进行了简单随机抽样。新电池平均可持续使用 120 分钟,标准偏差为 12 分钟,旧电池平均可持续使用 115 分钟,标准偏差为 15 分钟。总体均值差异检验得出的 p 值为 0.011。

p 值的正确解释:假设新电池的工作时间与旧电池相同或更少,则由于随机抽样误差,研究人员将在 1.1% 的研究中得到观察到的差异或更极端的差异。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注