7 types courants de régression (et quand les utiliser)



L’analyse de régression est l’une des techniques les plus couramment utilisées en statistique.

L’objectif fondamental de l’analyse de régression est d’ajuster un modèle qui décrit le mieux la relation entre une ou plusieurs variables prédictives et une variable de réponse .

Dans cet article, nous partageons les 7 modèles de régression les plus couramment utilisés dans la vie réelle ainsi que le moment d’utiliser chaque type de régression.

1. Régression linéaire

La régression linéaire est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse numérique.

À utiliser lorsque :

  • La relation entre la ou les variables prédictives et la variable de réponse est raisonnablement linéaire.
  • La variable de réponse est une variable numérique continue.

Exemple : une entreprise de vente au détail peut adapter un modèle de régression linéaire utilisant les dépenses publicitaires pour prédire les ventes totales.

Étant donné que la relation entre ces deux variables est probablement linéaire (plus d’argent dépensé en publicité entraîne généralement une augmentation des ventes) et que la variable de réponse (ventes totales) est une variable numérique continue, il est logique d’ajuster un modèle de régression linéaire.

Ressource : Une introduction à la régression linéaire multiple

2. Régression logistique

La régression logistique est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse binaire.

À utiliser lorsque :

  • La variable de réponse est binaire : elle ne peut prendre que deux valeurs.

Exemple : Des chercheurs en médecine peuvent adapter un modèle de régression logistique utilisant l’exercice et les habitudes tabagiques pour prédire la probabilité qu’un individu subisse une crise cardiaque.

Étant donné que la variable de réponse (crise cardiaque) est binaire – un individu subit ou non une crise cardiaque – il est approprié d’ajuster un modèle de régression logistique.

Ressource : Une introduction à la régression logistique

3. Régression polynomiale

La régression polynomiale est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse numérique.

À utiliser lorsque :

  • La relation entre la ou les variables prédictives et la variable de réponse est non linéaire.
  • La variable de réponse est une variable numérique continue.

Exemple : les psychologues peuvent ajuster une régression polynomiale en utilisant les « heures travaillées » pour prédire le « bonheur global » des employés d’un certain secteur.

La relation entre ces deux variables est probablement non linéaire. Autrement dit, à mesure que le nombre d’heures augmente, un individu peut déclarer un plus grand bonheur, mais au-delà d’un certain nombre d’heures travaillées, le bonheur global est susceptible de diminuer. Étant donné que cette relation entre la variable prédictive et la variable de réponse est non linéaire, il est logique d’ajuster un modèle de régression polynomiale.

Ressource : Une introduction à la régression polynomiale

4. Régression de crête

La régression Ridge est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse numérique.

À utiliser lorsque :

  • Les variables prédictives sont fortement corrélées et la multicolinéarité devient un problème.
  • La variable de réponse est une variable numérique continue.

Exemple : un data scientist de basket-ball peut ajuster un modèle de régression de crête en utilisant des variables prédictives telles que les points, les passes décisives et les rebonds pour prédire le salaire des joueurs.

Les variables prédictives sont susceptibles d’être fortement corrélées puisque les meilleurs joueurs ont tendance à obtenir plus de points, de passes décisives et de rebonds. Ainsi, la multicolinéarité est susceptible de poser un problème, nous pouvons donc minimiser ce problème en utilisant la régression de crête.

Ressource : Une introduction à la régression Ridge

5. Régression au lasso

La régression Lasso est très similaire à la régression Ridge et est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse numérique.

À utiliser lorsque :

  • Les variables prédictives sont fortement corrélées et la multicolinéarité devient un problème.
  • La variable de réponse est une variable numérique continue.

Exemple : un économiste peut ajuster un modèle de régression au lasso en utilisant des variables prédictives telles que le nombre total d’années de scolarité, les heures travaillées et le coût de la vie pour prédire le revenu du ménage.

Les variables prédictives sont probablement fortement corrélées puisque les individus plus scolarisés ont également tendance à vivre dans des villes où le coût de la vie est plus élevé et à travailler plus d’heures. Ainsi, la multicolinéarité est susceptible de poser un problème, nous pouvons donc minimiser ce problème en utilisant la régression par lasso.

Notez que la régression Lasso et la régression Ridge sont assez similaires. Lorsque la multicolinéarité pose un problème dans un ensemble de données, il est recommandé d’adapter à la fois un modèle de régression Lasso et Ridge pour voir quel modèle fonctionne le mieux.

Ressource : Une introduction à la régression au lasso

6. Régression de Poisson

La régression de Poisson est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse.

À utiliser lorsque :

  • La variable de réponse est constituée de données de « comptage » – par exemple le nombre de jours ensoleillés par semaine, le nombre d’accidents de la route par an, le nombre d’appels passés par jour, etc.

Exemple : Une université peut utiliser la régression de Poisson pour examiner le nombre d’étudiants qui obtiennent leur diplôme d’un programme collégial spécifique en fonction de leur moyenne cumulative au moment de leur entrée dans le programme et de leur sexe.

Dans ce cas, puisque la variable de réponse est constituée de données de comptage (nous pouvons « compter » le nombre d’étudiants diplômés – 200, 250, 300, 413, etc.), il est approprié d’utiliser la régression de Poisson.

Ressource : Une introduction à la régression de Poisson

7. Régression quantile

La régression quantile est utilisée pour ajuster un modèle de régression qui décrit la relation entre une ou plusieurs variables prédictives et une variable de réponse.

À utiliser lorsque :

  • Nous aimerions estimer un quantile ou percentile spécifique de la variable de réponse – par exemple le 90e centile, le 95e centile, etc.

Exemple : Un professeur peut utiliser la régression quantile pour prédire le 90e centile attendu des résultats aux examens en fonction du nombre d’heures étudiées :

Dans ce cas, puisque le professeur souhaite prédire un centile spécifique de la variable de réponse (scores aux examens), il est approprié d’utiliser la régression quantile.

Ressource : Une introduction à la régression quantile

Ressources additionnelles

4 exemples d’utilisation de la régression linéaire dans la vie réelle
4 exemples d’utilisation de la régression logistique dans la vie réelle
ANOVA vs régression : quelle est la différence ?
Le guide complet : Comment rapporter les résultats de régression

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *