如何在 excel 中执行探索性数据分析


任何数据分析项目的第一步都是探索性数据分析

这涉及以三种方式探索数据集:

1. 使用描述性统计总结一组数据。

2. 使用图表可视化一组数据。

3. 识别缺失值。

通过执行这三个操作,您可以了解数据集中的值如何分布,并在继续进行假设检验、拟合回归模型或执行统计建模之前检测任何有问题的值。

以下分步示例展示了如何在 Excel 中执行探索性数据分析。

第 1 步:创建数据集

首先,我们创建一个简单的数据集,其中包含 10 名不同篮球运动员的信息:

该数据集包含三个变量(得分、篮板、助攻),一些变量具有空值或 NA 值,这在现实数据集中很常见。

第 2 步:汇总数据

接下来,我们可以计算该数据集中三个变量的平均值、中位数、四分位数、最小值和最大值:

以下是我们用于 B 列中每个单元格的公式:

  • B13 : =平均值( B2:B11 )
  • B14 : =中位数( B2:B11 )
  • B15 : =四分位数( B2:B11 , 1)
  • B16 : =四分位数( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

然后,我们将每个公式拖到右侧,以便我们可以为 C 列和 D 列中的值计算相同的指标。

通过计算每个变量的这些描述性统计数据,我们可以很好地了解每个变量的值的分布。

注意:每个公式在计算每个描述性统计量时会自动忽略空白或NA值。

第 3 步:可视化数据

我们还可以创建图表来可视化数据集的值。

例如,要可视化 Points 变量值的分布,我们可以突出显示单元格区域B2:B11中的值,然后单击顶部功能区的“插入”选项卡,然后单击“图形”组中的“直方图”图标:

将自动创建以下直方图:

通过此直方图,您可以直观地看到球员得分的分布情况。

例如,我们可以看到:

  • 4名球员得分在10分至15分之间。
  • 1 名球员得分在 15 至 20 分之间。
  • 2 名球员得分在 20 至 25 分之间。
  • 3名球员得分在25分至30分之间。

我们可以对数据集中的每个变量重复此过程,以可视化每个变量的值的分布。

步骤 4:识别缺失值

我们还可以使用下面的公式来统计B列中缺失值的数量:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

我们可以在单元格B19中输入这个公式,然后将其拖到右侧来计算数据集中每个变量的缺失值数量:

从结果我们可以看出:

  • Points 列中有0 个缺失值。
  • 篮板数列中有2 个缺失值。
  • “帮助”列中有1 个缺失值。

我们现在已经完成了对该数据集的一些基本探索性数据分析,并且对该数据集中每个变量的值如何分布有了很好的了解。

相关: 如何在 Excel 中用零替换空白单元格

其他资源

以下教程说明如何在 Excel 中执行其他常见任务:

如何在 Excel 中计算五个数字的汇总
Excel中如何计算分组平均值
如何在Excel中计算每组的最大值

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注