如何在 r 中执行分位数归一化

经过本杰明·安德森博 7月 21, 2023 指导 0 条评论

在统计学中，分位数归一化是一种使两个分布在统计特性方面相同的方法。

以下示例展示了如何在 R 中执行分位数归一化。

示例：R 中的分位数归一化

假设我们在 R 中创建以下包含两列的数据框：

 #make this example reproducible
set. seeds (0)

#create data frame with two columns
df <- data. frame (x=rnorm(1000),
                 y=rnorm(1000))

#view first six rows of data frame
head(df)

           xy
1 1.2629543 -0.28685156
2 -0.3262334 1.84110689
3 1.3297993 -0.15676431
4 1.2724293 -1.38980264
5 0.4146414 -1.47310399
6 -1.5399500 -0.06951893

我们可以使用sapply()和quantile()函数来计算 x 和 y 的分位数：

 #calculate quantiles for x and y
sapply(df, function(x) quantile(x, probs = seq(0, 1, 1/4)))

               xy
0% -3.23638573 -3.04536393
25% -0.70845589 -0.73331907
50% -0.05887078 -0.03181533
75% 0.68763873 0.71755969
100% 3.26641452 3.03903341

请注意，x 和 y 的分位数值相似，但值不相同。

例如， x 的第 25 个百分位数值为-0.708 ， y 的第 25 个百分位数值为-0.7333 。

要执行分位数归一化，我们可以使用 R 中preprocessCore包中的normalize.quantiles()函数：

 library (preprocessCore)

#perform quantile normalization
df_norm <- as. data . frame ( normalize.quantiles ( as.matrix (df)))

#rename data frame columns
names(df_norm) <- c(' x ', ' y ')

#view first six row of new data frame
head(df_norm)

           xy
1 1.2632137 -0.28520228
2 -0.3469744 1.82440519
3 1.3465807 -0.16471644
4 1.2692599 -1.34472394
5 0.4161133 -1.43717759
6 -1.6269731 -0.07906793

然后我们可以使用以下代码再次计算 x 和 y 的分位数：

 #calculate quantiles for x and y
sapply(df_norm, function(x) quantile(x, probs = seq(0, 1, 1/4)))

               xy
0% -3.14087483 -3.14087483
25% -0.72088748 -0.72088748
50% -0.04534305 -0.04534305
75% 0.70259921 0.70259921
100% 3.15272396 3.15272396

请注意，x 和 y 的分位数现在相同。

我们会说 x 和 y 已经被分位数归一化。换句话说，这两个分布现在在统计特性方面是相同的。

其他资源

以下教程解释了如何在 R 中执行其他常见任务：

如何在 R 中标准化数据
 如何在 R 中计算百分位数
 如何在 R 中使用 quantile() 函数

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

示例：R 中的分位数归一化

其他资源

关于作者

本杰明·安德森博

添加评论