Comment interpréter la sortie de régression dans Excel



La régression linéaire multiple est l’une des techniques les plus couramment utilisées dans toutes les statistiques.

Ce didacticiel explique comment interpréter chaque valeur de la sortie d’un modèle de régression linéaire multiple dans Excel.

Exemple : interprétation de la sortie de régression dans Excel

Supposons que nous voulions savoir si le nombre d’heures passées à étudier et le nombre d’examens préparatoires passés affectent la note qu’un étudiant obtient à un certain examen d’entrée à l’université.

Pour explorer cette relation, nous pouvons effectuer une régression linéaire multiple en utilisant les heures étudiées et les examens préparatoires passés comme variables prédictives et les résultats de l’examen comme variable de réponse.

La capture d’écran suivante montre la sortie de régression de ce modèle dans Excel :

Sortie de régression linéaire multiple dans Excel

Voici comment interpréter les valeurs les plus importantes de la sortie :

R multiples : 0,857 . Cela représente la corrélation multiple entre la variable de réponse et les deux variables prédictives.

R Carré : 0,734 . C’est ce qu’on appelle le coefficient de détermination. C’est la proportion de la variance de la variable de réponse qui peut être expliquée par les variables explicatives. Dans cet exemple, 73,4 % de la variation des résultats aux examens s’explique par le nombre d’heures étudiées et le nombre d’examens préparatoires passés.

R carré ajusté : 0,703 . Cela représente la valeur R Square, ajustée en fonction du nombre de variables prédictives dans le modèle . Cette valeur sera également inférieure à la valeur de R Square et pénalisera les modèles qui utilisent trop de variables prédictives dans le modèle.

Erreur type : 5,366 . Il s’agit de la distance moyenne entre les valeurs observées et la droite de régression. Dans cet exemple, les valeurs observées s’éloignent en moyenne de 5,366 unités de la droite de régression.

Observations : 20 . Taille totale de l’échantillon de l’ensemble de données utilisé pour produire le modèle de régression.

F : 23h46 . Il s’agit de la statistique F globale pour le modèle de régression, calculée comme MS de régression / MS résiduelle.

Signification F : 0,0000 . Il s’agit de la valeur p associée à la statistique F globale. Cela nous indique si le modèle de régression dans son ensemble est statistiquement significatif ou non.

Dans ce cas, la valeur p est inférieure à 0,05, ce qui indique que les variables explicatives , les heures étudiées et les examens préparatoires passés combinés, ont une association statistiquement significative avec le résultat de l’examen .

Coefficients : Les coefficients de chaque variable explicative nous indiquent le changement moyen attendu de la variable de réponse, en supposant que l’autre variable explicative reste constante.

Par exemple, pour chaque heure supplémentaire consacrée à étudier, la note moyenne à l’examen devrait augmenter de 5,56 , en supposant que les examens préparatoires passés restent constants.

Nous interprétons le coefficient de l’interception comme signifiant que la note attendue à l’examen pour un étudiant qui n’étudie aucune heure et ne passe aucun examen préparatoire est de 67,67 .

Valeurs P. Les valeurs p individuelles nous indiquent si chaque variable explicative est statistiquement significative ou non. Nous pouvons voir que les heures étudiées sont statistiquement significatives (p = 0,00) tandis que les examens préparatoires passés (p = 0,52) ne sont pas statistiquement significatifs à α = 0,05.

Comment écrire l’équation de régression estimée

Nous pouvons utiliser les coefficients de la sortie du modèle pour créer l’équation de régression estimée suivante :

Note à l’examen = 67,67 + 5,56*(heures) – 0,60*(examens préparatoires)

Nous pouvons utiliser cette équation de régression estimée pour calculer la note attendue à l’examen pour un étudiant, en fonction du nombre d’heures d’études et du nombre d’examens préparatoires qu’il passe.

Par exemple, un étudiant qui étudie pendant trois heures et passe un examen préparatoire devrait obtenir une note de 83,75 :

Note à l’examen = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Gardez à l’esprit que, comme les examens préparatoires passés n’étaient pas statistiquement significatifs (p = 0,52), nous pouvons décider de les supprimer car ils n’apportent aucune amélioration au modèle global.

Dans ce cas, nous pourrions effectuer une régression linéaire simple en utilisant uniquement les heures étudiées comme variable explicative.

Ressources additionnelles

Introduction à la régression linéaire simple
Introduction à la régression linéaire multiple

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *