Comment lire et interpréter un tableau de régression
En statistiques, la régression est une technique qui peut être utilisée pour analyser la relation entre des variables prédictives et une variable de réponse.
Lorsque vous utilisez un logiciel (comme R, SAS, SPSS, etc.) pour effectuer une analyse de régression, vous recevrez en sortie un tableau de régression résumant les résultats de la régression. Il est important de savoir lire ce tableau afin de pouvoir comprendre les résultats de l’analyse de régression.
Ce didacticiel présente un exemple d’analyse de régression et fournit une explication détaillée de la manière de lire et d’interpréter le résultat d’un tableau de régression.
Un exemple de régression
Supposons que nous disposions de l’ensemble de données suivant qui montre le nombre total d’heures étudiées, le nombre total d’examens préparatoires passés et la note obtenue à l’examen final pour 12 étudiants différents :
Pour analyser la relation entre les heures étudiées et les examens préparatoires passés avec la note à l’examen final qu’un étudiant obtient, nous effectuons une régression linéaire multiple en utilisant les heures étudiées et les examens préparatoires passés comme variables prédictives et la note finale à l’examen comme variable de réponse.
Nous recevons le résultat suivant :
Examen de l’ajustement du modèle
La première section montre plusieurs nombres différents qui mesurent l’ajustement du modèle de régression, c’est-à-dire dans quelle mesure le modèle de régression est capable de « s’adapter » à l’ensemble de données.
Voici comment interpréter chacun des nombres de cette section :
Plusieurs R
C’est le coefficient de corrélation . Il mesure la force de la relation linéaire entre les variables prédictives et la variable de réponse. Un multiple R de 1 indique une relation linéaire parfaite tandis qu’un multiple R de 0 n’indique aucune relation linéaire. Multiple R est la racine carrée de R au carré (voir ci-dessous).
Dans cet exemple, le multiple R est 0,72855 , ce qui indique une relation linéaire assez forte entre les heures d’étude et les examens préparatoires des prédicteurs et la note à l’examen final de la variable de réponse.
R-carré
Ceci est souvent écrit sous la forme r 2 et est également connu sous le nom de coefficient de détermination . Il s’agit de la proportion de la variance de la variable de réponse qui peut être expliquée par la variable prédictive.
La valeur du R au carré peut varier de 0 à 1. Une valeur de 0 indique que la variable de réponse ne peut pas du tout être expliquée par la variable prédictive. Une valeur de 1 indique que la variable de réponse peut être parfaitement expliquée sans erreur par la variable prédictive.
Dans cet exemple, le R au carré est de 0,5307 , ce qui indique que 53,07 % de la variance des résultats de l’examen final peut s’expliquer par le nombre d’heures étudiées et le nombre d’examens préparatoires passés.
Connexes : Qu’est-ce qu’une bonne valeur R au carré ?
R-carré ajusté
Il s’agit d’une version modifiée du R-carré qui a été ajustée en fonction du nombre de prédicteurs dans le modèle. Il est toujours inférieur au R au carré. Le R au carré ajusté peut être utile pour comparer l’ajustement de différents modèles de régression les uns aux autres.
Dans cet exemple, le R au carré ajusté est de 0,4265.
Erreur type de la régression
L’erreur standard de la régression est la distance moyenne entre les valeurs observées et la droite de régression. Dans cet exemple, les valeurs observées s’éloignent en moyenne de 7,3267 unités de la droite de régression.
Connexe : Comprendre l’erreur type de la régression
Observations
Il s’agit simplement du nombre d’ observations de notre ensemble de données. Dans cet exemple, le nombre total d’observations est de 12 .
Tester la signification globale du modèle de régression
La section suivante montre les degrés de liberté, la somme des carrés, les carrés moyens, la statistique F et la signification globale du modèle de régression.
Voici comment interpréter chacun des nombres de cette section :
Degrés de liberté de régression
Ce nombre est égal à : le nombre de coefficients de régression – 1. Dans cet exemple, nous avons un terme d’origine et deux variables prédictives, nous avons donc trois coefficients de régression au total, ce qui signifie que les degrés de liberté de régression sont 3 – 1 = 2 .
Degrés de liberté totaux
Ce nombre est égal à : le nombre d’observations – 1. Dans cet exemple, nous avons 12 observations, donc le nombre total de degrés de liberté est de 12 – 1 = 11 .
Degrés de liberté résiduels
Ce nombre est égal à : df total – df de régression. Dans cet exemple, les degrés de liberté résiduels sont 11 – 2 = 9 .
Carrés moyens
Les carrés moyens de régression sont calculés par régression SS / régression df. Dans cet exemple, régression MS = 546.53308 / 2 = 273.2665 .
Les carrés moyens résiduels sont calculés par SS résiduel / df résiduel. Dans cet exemple, MS résiduel = 483,1335 / 9 = 53,68151 .
Statistique F
La statistique f est calculée comme régression MS / MS résiduel. Cette statistique indique si le modèle de régression fournit un meilleur ajustement aux données qu’un modèle qui ne contient aucune variable indépendante.
Essentiellement, il teste si le modèle de régression dans son ensemble est utile. Généralement, si aucune des variables prédictives du modèle n’est statistiquement significative, la statistique F globale n’est pas non plus statistiquement significative.
Dans cet exemple, la statistique F est 273,2665 / 53,68151 = 5,09 .
Importance de F (valeur P)
La dernière valeur du tableau est la valeur p associée à la statistique F. Pour voir si le modèle de régression global est significatif, vous pouvez comparer la valeur p à un niveau de signification ; les choix courants sont .01, .05 et .10.
Si la valeur p est inférieure au niveau de signification, il existe suffisamment de preuves pour conclure que le modèle de régression s’adapte mieux aux données que le modèle sans variable prédictive. Ce résultat est positif car il signifie que les variables prédictives du modèle améliorent réellement l’ajustement du modèle.
Dans cet exemple, la valeur p est de 0,033 , ce qui est inférieur au niveau de signification commun de 0,05. Cela indique que le modèle de régression dans son ensemble est statistiquement significatif, c’est-à-dire que le modèle s’adapte mieux aux données que le modèle sans variables prédictives.
Tester la signification globale du modèle de régression
La dernière section présente les estimations des coefficients, l’erreur type des estimations, la statistique t, les valeurs p et les intervalles de confiance pour chaque terme du modèle de régression.
Voici comment interpréter chacun des nombres de cette section :
Coefficients
Les coefficients nous donnent les nombres nécessaires pour écrire l’équation de régression estimée :
y chapeau = b 0 + b 1 x 1 + b 2 x 2 .
Dans cet exemple, l’équation de régression estimée est :
note de l’examen final = 66,99 + 1,299 (heures d’étude) + 1,117 (examens préparatoires)
Chaque coefficient individuel est interprété comme l’augmentation moyenne de la variable de réponse pour chaque augmentation d’une unité d’une variable prédictive donnée, en supposant que toutes les autres variables prédictives restent constantes. Par exemple, pour chaque heure supplémentaire étudiée, l’augmentation moyenne attendue de la note à l’examen final est de 1,299 points, en supposant que le nombre d’examens préparatoires passés reste constant.
L’interception est interprétée comme la note moyenne attendue à l’examen final pour un étudiant qui étudie pendant zéro heure et ne passe aucun examen préparatoire. Dans cet exemple, un étudiant devrait obtenir un score de 66,99 s’il étudie pendant zéro heure et ne passe aucun examen préparatoire. Soyez prudent lorsque vous interprétez l’interception d’un résultat de régression, car cela n’a pas toujours de sens de le faire.
Par exemple, dans certains cas, l’interception peut s’avérer être un nombre négatif, qui n’a souvent pas d’interprétation évidente. Cela ne signifie pas que le modèle est erroné, cela signifie simplement que l’interception en elle-même ne doit pas être interprétée comme signifiant quoi que ce soit.
Erreur standard, statistiques t et valeurs p
L’erreur type est une mesure de l’incertitude autour de l’estimation du coefficient pour chaque variable.
Le t-stat est simplement le coefficient divisé par l’erreur type. Par exemple, le t-stat pour les heures d’étude est 1,299 / 0,417 = 3,117.
La colonne suivante montre la valeur p associée au t-stat. Ce nombre nous indique si une variable de réponse donnée est significative dans le modèle. Dans cet exemple, nous voyons que la valeur p pour les heures d’étude est de 0,012 et la valeur p pour les examens préparatoires est de 0,304. Cela indique que les heures d’étude sont un prédicteur significatif de la note finale à l’examen, contrairement aux examens préparatoires .
Intervalle de confiance pour les estimations de coefficients
Les deux dernières colonnes du tableau fournissent les limites inférieure et supérieure d’un intervalle de confiance à 95 % pour les estimations des coefficients.
Par exemple, l’estimation du coefficient pour les heures d’étude est de 1,299, mais il existe une certaine incertitude autour de cette estimation. Nous ne pouvons jamais savoir avec certitude s’il s’agit du coefficient exact. Ainsi, un intervalle de confiance de 95 % nous donne une plage de valeurs probables pour le vrai coefficient.
Dans ce cas, l’intervalle de confiance à 95 % pour les heures d’étude est (0,356, 2,24). Notez que cet intervalle de confiance ne contient pas le nombre « 0 », ce qui signifie que nous sommes tout à fait sûrs que la vraie valeur du coefficient des heures d’étude est non nulle, c’est-à-dire un nombre positif.
En revanche, l’intervalle de confiance à 95 % pour les examens préparatoires est de (-1,201, 3,436). Notez que cet intervalle de confiance contient le chiffre « 0 », ce qui signifie que la vraie valeur du coefficient des examens préparatoires pourrait être nulle, c’est-à-dire non significative pour prédire les résultats de l’examen final.
Ressources additionnelles
Comprendre l’hypothèse nulle pour la régression linéaire
Comprendre le test F de signification globale en régression
Comment signaler les résultats de la régression