R 中的二次判别分析（一步一步）

经过本杰明·安德森博 27 7 月, 2023 指导 0 条评论

当您有一组预测变量并且想要将响应变量分类为两个或多个类时，可以使用二次判别分析方法。它被认为是线性判别分析的非线性等价物。

本教程提供了如何在 R 中执行二次判别分析的分步示例。

第 1 步：加载必要的库

首先，我们将加载此示例所需的库：

 library (MASS)
library (ggplot2)

第2步：加载数据

在本例中，我们将使用 R 中内置的iris数据集。以下代码演示了如何加载和显示该数据集：

 #attach iris dataset to make it easy to work with
attach(iris)

#view structure of dataset
str(iris)

'data.frame': 150 obs. of 5 variables:
 $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width: num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $Petal.Width: num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species: Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 ...

我们可以看到数据集总共包含 5 个变量和 150 个观测值。

对于这个例子，我们将构建一个二次判别分析模型来对给定花朵所属的物种进行分类。

我们将在模型中使用以下预测变量：

萼片长度
萼片宽度
花瓣长度
花瓣宽度

我们将使用它们来预测物种响应变量，该变量支持以下三个潜在类别：

山毛榉
杂色
弗吉尼亚州

第 3 步：创建训练和测试样本

接下来，我们将数据集分为用于训练模型的训练集和用于测试模型的测试集：

 #make this example reproducible
set.seed(1)

#Use 70% of dataset as training set and remaining 30% as testing set
sample <- sample(c( TRUE , FALSE ), nrow (iris), replace = TRUE , prob =c(0.7,0.3))
train <- iris[sample, ]
test <- iris[!sample, ]

步骤4：调整QDA模型

接下来，我们将使用MASS包中的qda() 函数来使 QDA 模型适应我们的数据：

 #fit QDA model
model <- qda(Species~., data=train)

#view model output
model

Call:
qda(Species ~ ., data = train)

Prior probabilities of groups:
    setosa versicolor virginica 
 0.3207547 0.3207547 0.3584906 

Group means:
           Sepal.Length Sepal.Width Petal.Length Petal.Width
setosa 4.982353 3.411765 1.482353 0.2411765
versicolor 5.994118 2.794118 4.358824 1.3676471
virginica 6.636842 2.973684 5.592105 2.0552632

以下是解释模型结果的方法：

组先验概率：这些代表训练集中每个物种的比例。例如，训练集中所有观测值的 35.8% 是针对virginica物种的。

组平均值：显示每个物种的每个预测变量的平均值。

第 5 步：使用模型进行预测

一旦我们使用训练数据拟合了模型，我们就可以用它来对测试数据进行预测：

 #use QDA model to make predictions on test data
predicted <- predict (model, test)

names(predicted)

[1] "class" "posterior" "x"

这将返回一个包含两个变量的列表：

类别：预测类别
后验：观察结果属于每个类别的后验概率

我们可以快速可视化测试数据集中前六个观察结果的每一个结果：

 #view predicted class for first six observations in test set
head(predicted$class)

[1] setosa setosa setosa setosa setosa setosa
Levels: setosa versicolor virginica

#view posterior probabilities for first six observations in test set
head(predicted$posterior)

   setosa versicolor virginica
4 1 7.224770e-20 1.642236e-29
6 1 6.209196e-26 8.550911e-38
7 1 1.248337e-21 8.132700e-32
15 1 2.319705e-35 5.094803e-50
17 1 1.396840e-29 9.586504e-43
18 1 7.581165e-25 8.611321e-37

第 6 步：评估模型

我们可以使用以下代码来查看 QDA 模型正确预测物种的观测百分比：

 #find accuracy of model
mean(predicted$class==test$Species)

[1] 1

事实证明，该模型正确预测了测试数据集中100%的观测值的物种。

在现实世界中，QDA 模型很少能正确预测每个类别的结果，但这个虹膜数据集的构造方式很简单，机器学习算法往往表现良好。

您可以在此处找到本教程中使用的完整 R 代码。

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多