Comment faire des prédictions avec la régression linéaire



La régression linéaire est une méthode que nous pouvons utiliser pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse .

L’une des raisons les plus courantes d’ajuster un modèle de régression est d’utiliser le modèle pour prédire les valeurs de nouvelles observations.

Nous utilisons les étapes suivantes pour faire des prédictions avec un modèle de régression :

  • Étape 1 : Collectez les données.
  • Étape 2 : Ajustez un modèle de régression aux données.
  • Étape 3 : Vérifiez que le modèle correspond bien aux données.
  • Étape 4 : Utilisez l’équation de régression ajustée pour prédire les valeurs des nouvelles observations.

Les exemples suivants montrent comment utiliser des modèles de régression pour effectuer des prédictions.

Exemple 1 : faire des prédictions avec un modèle de régression linéaire simple

Supposons qu’un médecin collecte des données sur la taille (en pouces) et le poids (en livres) de 50 patients.

Elle ajuste ensuite un modèle de régression linéaire simple en utilisant le « poids » comme variable prédictive et la « taille » comme variable de réponse.

L’équation de régression ajustée est la suivante :

Taille = 32,7830 + 0,2001*(poids)

Après avoir vérifié que les hypothèses du modèle de régression linéaire sont respectées, le médecin conclut que le modèle s’ajuste bien aux données.

Il peut ensuite utiliser le modèle pour prédire la taille des nouveaux patients en fonction de leur poids.

Par exemple, supposons qu’un nouveau patient pèse 170 livres. En utilisant le modèle, nous prédirions que ce patient aurait une taille de 66,8 pouces :

Hauteur = 32,7830 + 0,2001*(170) = 66,8 pouces

Exemple 2 : faire des prédictions avec un modèle de régression linéaire multiple

Supposons qu’un économiste collecte des données sur le nombre total d’années de scolarité, les heures hebdomadaires travaillées et le revenu annuel de 30 personnes.

Il ajuste ensuite un modèle de régression linéaire multiple en utilisant le « nombre total d’années de scolarité » et les « heures hebdomadaires travaillées » comme variable prédictive et le « revenu annuel » comme variable de réponse.

L’équation de régression ajustée est la suivante :

Revenu = 1 342,29 + 3 324,33*(années de scolarité) + 765,88*(heures hebdomadaires travaillées)

Après avoir vérifié que les hypothèses du modèle de régression linéaire sont remplies, l’économiste conclut que le modèle s’ajuste bien aux données.

Il peut ensuite utiliser le modèle pour prédire le revenu annuel d’un nouvel individu en fonction de son nombre total d’années de scolarité et des heures hebdomadaires travaillées.

Par exemple, supposons qu’un nouvel individu ait 16 années de scolarité au total et travaille en moyenne 40 heures par semaine. En utilisant le modèle, nous prédirions que cette personne aurait un revenu annuel de 85 166,77 $ :

Revenu = 1 342,29 + 3 324,33*(16) + 765,88*(45) = 85 166,77 $

Sur l’utilisation des intervalles de confiance

Lorsque vous utilisez un modèle de régression pour faire des prédictions sur de nouvelles observations, la valeur prédite par le modèle de régression est appelée estimation ponctuelle .

Bien que l’estimation ponctuelle représente notre meilleure estimation de la valeur de la nouvelle observation, il est peu probable qu’elle corresponde exactement à la valeur de la nouvelle observation.

Ainsi, pour capturer cette incertitude, nous pouvons créer un intervalle de confiance – une plage de valeurs susceptible de contenir un paramètre de population avec un certain niveau de confiance.

Par exemple, au lieu de prédire qu’un nouvel individu mesurera 66,8 pouces, nous pouvons créer l’intervalle de confiance suivant :

Intervalle de confiance à 95 % = [64,8 pouces, 68,8 pouces]

Nous interpréterions cet intervalle comme signifiant que nous sommes sûrs à 95 % que la taille réelle de cet individu se situe entre 64,8 pouces et 68,8 pouces.

Précautions à prendre lors des prédictions

Gardez à l’esprit les points suivants lorsque vous utilisez un modèle de régression pour faire des prédictions :

1. Utilisez le modèle uniquement pour faire des prédictions dans la plage de données utilisée pour estimer le modèle de régression.

Par exemple, supposons que nous ajustions un modèle de régression en utilisant la variable prédictive « poids » et que le poids des individus de l’échantillon que nous avons utilisé pour estimer le modèle était compris entre 120 et 180 livres.

Il ne serait pas valide d’utiliser le modèle pour estimer la taille d’un individu pesant 200 livres, car cela se situe en dehors de la plage de la variable prédictive que nous avons utilisée pour estimer le modèle.

Il est possible que la relation entre le poids et la taille soit différente en dehors de la plage allant de 120 à 180 livres. Nous ne devrions donc pas utiliser le modèle pour estimer la taille d’un individu pesant 200 livres.

2. Utilisez le modèle uniquement pour faire des prédictions pour la population que vous avez échantillonnée.

Par exemple, supposons que la population qu’un économiste tire d’un échantillon de toutes les personnes vivant dans une ville particulière.

Nous ne devrions utiliser le modèle de régression ajusté que pour prédire le revenu annuel des individus dans cette ville puisque la totalité de l’échantillon utilisé pour ajuster le modèle vivait dans cette ville.

Ressources additionnelles

Introduction à la régression linéaire simple
Introduction à la régression linéaire multiple
Introduction aux intervalles de confiance
Les quatre hypothèses de la régression linéaire

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *