如何在 google 表格中执行线性回归
线性回归是一种可用于量化一个或多个解释变量与响应变量之间关系的方法。
当只有一个解释变量时,我们使用简单线性回归;当有两个或多个解释变量时,我们使用多元线性回归。
这两种类型的回归都可以使用 Google Sheets LINEST()函数执行,该函数使用以下语法:
LINEST(known_data_y、known_data_x、calculate_b、详细)
金子:
- known_data_y:响应值数组
- known_data_x:解释值表
- calculate_b:表示是否计算截距。默认情况下这是 TRUE,我们在线性回归中保留这种方式。
- verbose:指示是否提供除斜率和截距之外的其他回归统计数据。默认情况下这是 FALSE,但我们将在示例中指定它是 TRUE。
以下示例展示了如何在实践中使用此功能。
Google 表格中的简单线性回归
假设我们想了解学习时间和考试成绩之间的关系。为考试而学习以及考试中获得的成绩。
为了探索这种关系,我们可以使用学习时间作为解释变量,考试成绩作为响应变量来执行简单的线性回归。
以下屏幕截图显示了如何使用 20 名学生的数据集执行简单的线性回归,并在单元格 D2 中使用以下公式:
=线( B2:B21 , A2:A21 ,真,真)
以下屏幕截图提供了输出的注释:
以下是如何解释结果中最相关的数字:
R 方: 0.72725 。这称为决定系数。它是响应变量中可以由解释变量解释的方差的比例。在此示例中,大约 72.73% 的考试成绩差异可以通过学习时数来解释。
标准误差: 5.2805 。这是观测值与回归线之间的平均距离。在本例中,观测值与回归线平均偏差 5.2805 个单位。
系数:系数为我们提供了编写估计回归方程所需的数字。在本例中,估计回归方程为:
考试成绩 = 67.16 + 5.2503*(小时)
我们将学时系数解释为每多学习一小时,考试成绩平均应增加5.2503 。我们将截距系数解释为学习零小时的学生的预期考试成绩为67.16 。
我们可以使用这个估计的回归方程根据学习小时数计算学生的预期考试成绩。例如,学习三个小时的学生应获得82.91的考试成绩:
考试成绩 = 67.16 + 5.2503*(3) = 82.91
Google 表格中的多元线性回归
假设我们想知道学习时间和参加预科考试的次数是否会影响学生在某次高考中的成绩。
为了探索这种关系,我们可以使用学习时间和准备考试作为解释变量,以考试结果作为响应变量来执行多元线性回归。
以下屏幕截图显示了如何使用 20 名学生的数据集执行多元线性回归,并在单元格 E2 中使用以下公式:
=右( C2:C21 、 A2:B21 、正确、正确)
以下是如何解释结果中最相关的数字:
R 方: 0.734 。这称为决定系数。它是响应变量的方差可以被解释变量解释的比例。在此示例中,73.4% 的考试成绩差异是由学习时数和参加的准备考试次数来解释的。
标准误差: 5.3657 。这是观测值与回归线之间的平均距离。在此示例中,观测值与回归线平均偏差 5.3657 个单位。
估计回归方程:我们可以使用模型输出的系数来创建以下估计回归方程:
考试成绩 = 67.67 + 5.56*(小时) – 0.60*(预备考试)
我们可以使用这个估计的回归方程根据学生的学习小时数和参加练习考试的次数来计算学生的预期考试成绩。例如,学习三个小时并参加预备考试的学生应该得到83.75的成绩:
考试成绩 = 67.67 + 5.56*(3) – 0.60*(1) = 83.75
其他资源
以下教程介绍了如何在 Google 表格中执行其他常见任务: