Introduction à l’analyse discriminante linéaire



Lorsque nous disposons d’un ensemble de variables prédictives et que nous souhaitons classer une variable de réponse dans l’une des deux classes, nous utilisons généralement la régression logistique .

Par exemple, nous pouvons utiliser la régression logistique dans le scénario suivant :

  • Nous souhaitons utiliser le pointage de crédit et le solde bancaire pour prédire si un client donné fera défaut sur un prêt. (Variable de réponse = « Par défaut » ou « Aucun défaut »)

Cependant, lorsqu’une variable de réponse a plus de deux classes possibles, nous préférons généralement utiliser une méthode connue sous le nom d’analyse discriminante linéaire , souvent appelée LDA.

Par exemple, nous pouvons utiliser LDA dans le scénario suivant :

  • Nous souhaitons utiliser les points par match et les rebonds par match pour prédire si un joueur de basket-ball donné au lycée sera accepté dans l’une des trois écoles suivantes : Division 1, Division 2 ou Division 3.

Bien que les modèles LDA et de régression logistique soient tous deux utilisés pour la classification , il s’avère que la LDA est bien plus stable que la régression logistique lorsqu’il s’agit de faire des prédictions pour plusieurs classes et constitue donc l’algorithme préféré à utiliser lorsque la variable de réponse peut prendre plus de deux classes.

LDA fonctionne également mieux lorsque la taille des échantillons est petite par rapport à la régression logistique, ce qui en fait une méthode privilégiée lorsque vous ne parvenez pas à rassembler de grands échantillons.

Comment créer des modèles LDA

LDA fait les hypothèses suivantes sur un ensemble de données donné :

(1) Les valeurs de chaque variable prédictive sontnormalement distribuées . Autrement dit, si nous créions un histogramme pour visualiser la distribution des valeurs pour un prédicteur donné, il aurait à peu près une « forme de cloche ».

(2) Chaque variable prédictive a la même variance . Ce n’est presque jamais le cas dans les données du monde réel, c’est pourquoi nous mettons généralement à l’échelle chaque variable pour avoir la même moyenne et la même variance avant d’ajuster réellement un modèle LDA.

Une fois ces hypothèses vérifiées, LDA estime alors les valeurs suivantes :

  • μ k : La moyenne de toutes les observations d’entraînement de la k ème classe.
  • σ 2 : La moyenne pondérée des variances de l’échantillon pour chacune des k classes.
  • π k : La proportion des observations d’entraînement qui appartiennent à la k ème classe.

LDA intègre ensuite ces nombres dans la formule suivante et attribue chaque observation X = x à la classe pour laquelle la formule produit la plus grande valeur :

k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

Notez que LDA a linéaire dans son nom car la valeur produite par la fonction ci-dessus provient du résultat de fonctions linéaires de x.

Comment préparer les données pour LDA

Assurez-vous que vos données répondent aux exigences suivantes avant de leur appliquer un modèle LDA :

1. La variable de réponse est catégorique . Les modèles LDA sont conçus pour être utilisés pour des problèmes de classification, c’est-à-dire lorsque la variable de réponse peut être placée en classes ou en catégories.

2. Les variables prédictives suivent une distribution normale . Tout d’abord, vérifiez que chaque variable prédictive est à peu près normalement distribuée. Si ce n’est pas le cas, vous pouvez choisir de transformer d’abord les données pour rendre la distribution plus normale.

3. Chaque variable prédictive a la même variance . Comme mentionné précédemment, LDA suppose que chaque variable prédictive a la même variance. Comme c’est rarement le cas dans la pratique, c’est une bonne idée de mettre à l’échelle chaque variable de l’ensemble de données de telle sorte qu’elle ait une moyenne de 0 et un écart type de 1.

4. Tenir compte des valeurs aberrantes extrêmes. Assurez-vous de vérifier les valeurs aberrantes extrêmes dans l’ensemble de données avant d’appliquer LDA. En règle générale, vous pouvez vérifier visuellement les valeurs aberrantes en utilisant simplement des diagrammes en boîte ou des nuages de points .

Exemples d’utilisation de l’analyse discriminante linéaire

Les modèles LDA sont appliqués dans une grande variété de domaines dans la vie réelle. Voici quelques exemples :

1. Commercialisation . Les entreprises de vente au détail utilisent souvent LDA pour classer les acheteurs dans l’une des plusieurs catégories. Par exemple, ils peuvent créer un modèle LDA pour prédire si un acheteur donné sera ou non un dépensier faible, moyen ou élevé en utilisant des variables prédictives telles que le revenu , les dépenses annuelles totales et la taille du ménage .

2. Médical . Les hôpitaux et les équipes de recherche médicale utilisent souvent la LDA pour prédire si un groupe donné de cellules anormales est susceptible de conduire à une maladie légère, modérée ou grave.

3. Développement de produits . Les entreprises peuvent créer des modèles LDA pour prédire si un certain consommateur utilisera son produit quotidiennement, hebdomadairement, mensuellement ou annuellement, en fonction de diverses variables prédictives telles que le sexe , le revenu annuel et la fréquence d’utilisation de produits similaires .

4. Écologie. Les chercheurs peuvent créer des modèles LDA pour prédire si un récif corallien donné aura un état de santé global bon, modéré, mauvais ou en voie de disparition, en fonction d’une variété de variables prédictives telles que la taille , la contamination annuelle et l’âge .

LDA en R et Python

Les didacticiels suivants fournissent des exemples étape par étape sur la manière d’effectuer une analyse discriminante linéaire dans R et Python :

Analyse discriminante linéaire dans R (étape par étape)
Analyse discriminante linéaire en Python (étape par étape)

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *