什么是单变量分析? (定义&;示例)
术语单变量分析是指对一个变量的分析。你可以记住这一点,因为前缀“uni”的意思是“一个”。
单变量分析的目标是了解单个变量的值的分布。您可以将此类分析与以下分析进行比较:
- 双变量分析:两个变量的分析。
- 多变量分析:两个或多个变量的分析。
例如,假设我们有以下数据集:
我们可能选择对数据集中的单个变量之一执行单变量分析,以更好地了解其值的分布。
例如,我们可以选择对变量Household size执行单变量分析:
进行单变量分析的常用方法有以下三种:
1. 汇总统计
执行单变量分析的最常见方法是使用汇总统计来描述变量。
有两种常见的汇总统计类型:
- 集中趋势的度量:这些数字描述了数据集的中心在哪里。示例包括平均值和中位数。
- 分散度量:这些数字描述了数据集中值的分布。示例包括区间、四分位距、标准差和方差。
2. 频率分布
执行单变量分析的另一种方法是创建频率分布,它描述不同值在数据集中出现的频率。
3. 图形
执行单变量分析的另一种方法是创建图形来可视化某个变量的值的分布。
常见的例子包括:
- 箱线图
- 直方图
- 密度曲线
- 卡蒙贝尔奶酪
以下示例展示了如何使用前面提到的数据集中的“家庭规模”变量执行每种类型的单变量分析:
统计汇总
我们可以计算以下家庭规模集中趋势的衡量标准:
- Average(平均值): 3.8
- 中位数(平均值): 4
这些价值观让我们了解“中心”价值观在哪里。
我们还可以计算以下分散度量:
- 范围(最大值和最小值之间的差): 6
- 四分位数(中间 50% 值的分布): 2.5
- 标准差(传播的平均度量): 1.87
这些值让我们了解该变量值的分布。
频率分布
我们还可以创建以下频率分布表来总结不同值出现的频率:
这使我们能够很快看出最常见的家庭规模是4 人。
资源:您可以使用此频率计算器自动生成任何变量的频率分布。
图形
我们可以创建以下图表来帮助我们可视化家庭规模的值分布:
1.箱线图
箱线图是显示数据集的五位数字摘要的图表。
五数概括包括:
- 最小值
- 第一个四分位数
- 中值
- 第三个四分位数
- 最大值
以下是家庭规模变量的箱线图:
资源:您可以使用此箱线图生成器自动生成任何变量的箱线图。
2. 直方图
直方图是一种使用垂直条来显示频率的图表。这种类型的图表是可视化数据集中值分布的有用方法。
以下是“家庭人数”变量的直方图:
3. 密度曲线
密度曲线是图表上的一条曲线,表示一组数据中值的分布。
它对于可视化分布的“形状”特别有用,包括分布是否具有一个或多个频繁值的“峰值”以及分布是否向左或向右倾斜。
以下是家庭规模变量的密度曲线:
4.饼图
饼图是一种圆形图表,使用切片来表示整体的比例。
以下是家庭人数变量的饼图:
根据数据类型的不同,这些图表中的一个可能比其他图表更适合可视化值的分布。