如何在 excel 中执行探索性数据分析
任何数据分析项目的第一步都是探索性数据分析。
这涉及以三种方式探索数据集:
1. 使用描述性统计总结一组数据。
2. 使用图表可视化一组数据。
3. 识别缺失值。
通过执行这三个操作,您可以了解数据集中的值如何分布,并在继续进行假设检验、拟合回归模型或执行统计建模之前检测任何有问题的值。
以下分步示例展示了如何在 Excel 中执行探索性数据分析。
第 1 步:创建数据集
首先,我们创建一个简单的数据集,其中包含 10 名不同篮球运动员的信息:
该数据集包含三个变量(得分、篮板、助攻),一些变量具有空值或 NA 值,这在现实数据集中很常见。
第 2 步:汇总数据
接下来,我们可以计算该数据集中三个变量的平均值、中位数、四分位数、最小值和最大值:
以下是我们用于 B 列中每个单元格的公式:
- B13 : =平均值( B2:B11 )
- B14 : =中位数( B2:B11 )
- B15 : =四分位数( B2:B11 , 1)
- B16 : =四分位数( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
然后,我们将每个公式拖到右侧,以便我们可以为 C 列和 D 列中的值计算相同的指标。
通过计算每个变量的这些描述性统计数据,我们可以很好地了解每个变量的值的分布。
注意:每个公式在计算每个描述性统计量时会自动忽略空白或NA值。
第 3 步:可视化数据
我们还可以创建图表来可视化数据集的值。
例如,要可视化 Points 变量值的分布,我们可以突出显示单元格区域B2:B11中的值,然后单击顶部功能区的“插入”选项卡,然后单击“图形”组中的“直方图”图标:
将自动创建以下直方图:
通过此直方图,您可以直观地看到球员得分的分布情况。
例如,我们可以看到:
- 4名球员得分在10分至15分之间。
- 1 名球员得分在 15 至 20 分之间。
- 2 名球员得分在 20 至 25 分之间。
- 3名球员得分在25分至30分之间。
我们可以对数据集中的每个变量重复此过程,以可视化每个变量的值的分布。
步骤 4:识别缺失值
我们还可以使用下面的公式来统计B列中缺失值的数量:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
我们可以在单元格B19中输入这个公式,然后将其拖到右侧来计算数据集中每个变量的缺失值数量:
从结果我们可以看出:
- Points 列中有0 个缺失值。
- 篮板数列中有2 个缺失值。
- “帮助”列中有1 个缺失值。
我们现在已经完成了对该数据集的一些基本探索性数据分析,并且对该数据集中每个变量的值如何分布有了很好的了解。
其他资源
以下教程说明如何在 Excel 中执行其他常见任务: