单变量或多变量分析:有什么区别?


术语单变量分析是指对一个变量的分析。你可以记住这一点,因为前缀“uni”的意思是“一个”。

术语“多变量分析”是指对多个变量的分析。您可以记住这一点,因为前缀“multi”的意思是“多个”。

执行单变量分析有以下三种常见方法:

1. 汇总统计

  • 我们可以计算集中趋势的度量,例如变量的平均值或中位数。
  • 我们还可以计算离散度的度量,例如变量的标准差。

2. 频率分布

  • 我们可以创建一个频率分布,它描述了变量中每个值出现的频率。

3. 图形

  • 我们可以创建箱线图、直方图、密度图等图表。可视化变量值的分布。

执行多变量分析有两种常见方法:

1. 散点图矩阵

  • 我们可以创建一个散点图矩阵,它使我们能够可视化数据集中变量的每个成对组合之间的关系。

2. 机器学习算法

  • 我们可以使用监督学习算法来拟合模型,例如多元线性回归,它量化多个预测变量和响应变量之间的关系。
  • 我们还可以使用主成分分析等无监督学习算法来同时查找数据集中多个变量之间的结构和关系。

以下示例展示了如何使用以下数据集执行单变量和多变量分析:

注意:当您分析恰好两个变量时,称为双变量分析

示例:如何执行单变量分析

我们可以选择对数据集中的任何单个变量进行单变量分析。

例如,我们可以选择对变量Household size执行单变量分析:

单变量分析示例

我们可以计算以下家庭规模集中趋势的衡量标准:

  • Average(平均值):3.8
  • 中位数(平均值):4

这些价值观让我们了解“中心”价值观在哪里。

我们还可以计算以下分散度量:

  • 范围(最大值和最小值之间的差):6
  • 四分位数(中间 50% 值的分布):2.5
  • 标准差(传播的平均度量):1.87

这些值让我们了解该变量值的分布。

我们还可以创建以下频率分布表来总结不同值出现的频率:

我们还可以创建一个箱线图来可视化根据家庭规模的值分布:

或者,我们可以创建一个直方图来可视化值的分布:

通过计算这些测量值并创建这些图表,我们可以更好地了解“家庭规模”变量的值是如何分布的。

示例:如何执行多元分析

让我们再次假设我们有相同的数据集:

我们可以对此数据集执行的多变量分析的一种简单形式是创建一个散点图矩阵,该矩阵显示数据集中数值变量的每个成对组合的散点图。

我们可以创建这种类型的矩阵来同时可视化家庭规模、年收入和宠物数量之间的关系。

资源:查看本教程,了解如何在 R 中创建散点图矩阵。

对此数据集执行多元分析的另一种方法是拟合多元线性回归模型。例如,我们可以创建一个回归模型,使用家庭规模和宠物数量来预测年收入。

资源:查看本教程,了解如何在 R 中执行多元线性回归。

对此数据集执行多元分析的另一种方法是执行主成分分析,这使我们能够找到数据集中的基础结构。

资源:查看本教程,了解如何在 R 中执行主成分分析。

结论

以下是本文的简要摘要:

  • 单变量分析是对一个变量的分析。
  • 多变量分析是对多个变量的分析。
  • 根据您的最终目标,可以采用不同的方法来执行每种类型的分析。
  • 在现实世界中,我们经常对单个数据集执行两种类型的分析。
  • 单变量分析使我们能够了解变量值的分布,而多变量分析使我们能够了解多个变量之间的关系。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注