Comment interpréter les valeurs P dans la régression linéaire (avec exemple)
En statistiques, les modèles de régression linéaire sont utilisés pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse .
Chaque fois que vous effectuez une analyse de régression à l’aide d’un logiciel statistique, vous recevrez un tableau de régression qui résume les résultats du modèle.
Deux des valeurs les plus importantes dans un tableau de régression sont les coefficients de régression et leurs valeurs p correspondantes.
Les valeurs p vous indiquent s’il existe ou non une relation statistiquement significative entre chaque variable prédictive et la variable de réponse.
L’exemple suivant montre comment interpréter les valeurs p d’un modèle de régression linéaire multiple dans la pratique.
Exemple : Interprétation des valeurs P dans un modèle de régression
Supposons que nous souhaitions ajuster un modèle de régression en utilisant les variables suivantes :
Variables prédictives
- Nombre total d’heures étudiées (entre 0 et 20)
- Si l’élève a eu recours ou non à un tuteur (oui ou non)
Variable de réponse
- Note à l’examen (entre 0 et 100)
Nous souhaitons examiner la relation entre les variables prédictives et la variable de réponse pour savoir si les heures d’études et de tutorat ont réellement un impact significatif sur les résultats à l’examen.
Supposons que nous effectuions une analyse de régression et obtenions le résultat suivant :
Terme | Coefficient | Erreur standard | t Statistique | Valeur P |
---|---|---|---|---|
Intercepter | 48.56 | 14h32 | 3.39 | 0,002 |
Heures étudiées | 2.03 | 0,67 | 3.03 | 0,009 |
Tuteur | 8.34 | 5,68 | 1,47 | 0,138 |
Voici comment interpréter le résultat de chaque terme du modèle :
Interprétation de la valeur P pour l’interception
Le terme d’origine dans un tableau de régression nous indique la valeur moyenne attendue pour la variable de réponse lorsque toutes les variables prédictives sont égales à zéro.
Dans cet exemple, le coefficient de régression pour l’origine est égal à 48,56 . Cela signifie que pour un étudiant qui a étudié zéro heure , la note moyenne attendue à l’examen est de 48,56.
La valeur p est 0,002 , ce qui nous indique que le terme d’origine est statistiquement différent de zéro.
En pratique, nous ne nous soucions généralement pas de la valeur p pour le terme d’origine. Même si la valeur p n’est pas inférieure à un certain niveau de signification (par exemple 0,05), nous conserverions toujours le terme d’origine dans le modèle.
Interprétation de la valeur P pour une variable prédictive continue
Dans cet exemple, les heures étudiées sont une variable prédictive continue qui va de 0 à 20 heures.
À partir du résultat de la régression, nous pouvons voir que le coefficient de régression pour les heures étudiées est de 2,03 . Cela signifie qu’en moyenne, chaque heure supplémentaire étudiée est associée à une augmentation de 2,03 points à l’examen final, en supposant que la variable prédictive Tuteur soit maintenue constante.
Par exemple, considérons l’étudiant A qui étudie pendant 10 heures et utilise un tuteur. Pensez également à l’étudiant B qui étudie pendant 11 heures et utilise également un tuteur. Selon nos résultats de régression, l’étudiant B devrait obtenir une note à l’examen supérieure de 2,03 points à celle de l’étudiant A.
La valeur p correspondante est de 0,009 , ce qui est statistiquement significatif à un niveau alpha de 0,05.
Cela nous indique que la variation moyenne des résultats à l’examen pour chaque heure supplémentaire étudiée est statistiquement significativement différente de zéro .
Autrement dit : les heures étudiées ont une relation statistiquement significative avec la variable de réponse aux résultats de l’examen .
Interprétation de la valeur P pour une variable prédictive catégorielle
Dans cet exemple, Tutor est une variable prédictive catégorielle qui peut prendre deux valeurs différentes :
- 1 = l’étudiant a fait appel à un tuteur pour préparer l’examen
- 0 = l’étudiant n’a pas fait appel à un tuteur pour préparer l’examen
À partir du résultat de la régression, nous pouvons voir que le coefficient de régression pour Tutor est de 8,34 . Cela signifie qu’en moyenne, un étudiant qui a eu recours à un tuteur a obtenu 8,34 points de plus à l’examen qu’un étudiant qui n’a pas eu recours à un tuteur, en supposant que la variable prédictive Heures étudiées reste constante.
Par exemple, considérons l’étudiant A qui étudie pendant 10 heures et utilise un tuteur. Pensez également à l’étudiant B qui étudie pendant 10 heures et n’a pas recours à un tuteur. Selon nos résultats de régression, l’étudiant A devrait obtenir un score à l’examen supérieur de 8,34 points à celui de l’étudiant B.
La valeur p correspondante est de 0,138 , ce qui n’est pas statistiquement significatif à un niveau alpha de 0,05.
Cela nous indique que la variation moyenne des résultats à l’examen pour chaque heure supplémentaire étudiée n’est pas statistiquement significativement différente de zéro .
Une autre façon de présenter les choses : la variable prédictive Tutor n’a pas de relation statistiquement significative avec la variable de réponse score à l’examen .
Cela indique que même si les étudiants qui ont eu recours à un tuteur ont obtenu de meilleurs résultats à l’examen, cette différence pourrait être due au hasard.
Ressources additionnelles
Les didacticiels suivants fournissent des informations supplémentaires sur la régression linéaire :
Comment interpréter le test F de signification globale en régression
Les cinq hypothèses de la régression linéaire multiple
Comprendre le test t dans la régression linéaire