Comprendre l’hypothèse nulle pour la régression linéaire
La régression linéaire est une technique que nous pouvons utiliser pour comprendre la relation entre une ou plusieurs variables prédictives et une variable de réponse .
Si nous n’avons qu’une seule variable prédictive et une variable de réponse, nous pouvons utiliser la régression linéaire simple , qui utilise la formule suivante pour estimer la relation entre les variables :
ŷ = β 0 + β 1 x
où:
- ŷ : La valeur de réponse estimée.
- β 0 : La valeur moyenne de y lorsque x est nul.
- β 1 : La variation moyenne de y associée à une augmentation d’une unité de x.
- x : la valeur de la variable prédictive.
La régression linéaire simple utilise les hypothèses nulles et alternatives suivantes :
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
L’hypothèse nulle stipule que le coefficient β 1 est égal à zéro. En d’autres termes, il n’existe pas de relation statistiquement significative entre la variable prédictive x et la variable réponse y.
L’hypothèse alternative stipule que β 1 n’est pas égal à zéro. En d’autres termes, il existe une relation statistiquement significative entre x et y.
Si nous avons plusieurs variables prédictives et une variable de réponse, nous pouvons utiliser la régression linéaire multiple , qui utilise la formule suivante pour estimer la relation entre les variables :
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
où:
- ŷ : La valeur de réponse estimée.
- β 0 : La valeur moyenne de y lorsque toutes les variables prédictives sont égales à zéro.
- β i : La variation moyenne de y associée à une augmentation d’une unité de x i .
- x i : La valeur de la variable prédictive x i .
La régression linéaire multiple utilise les hypothèses nulles et alternatives suivantes :
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
L’hypothèse nulle stipule que tous les coefficients du modèle sont égaux à zéro. En d’autres termes, aucune des variables prédictives n’a de relation statistiquement significative avec la variable de réponse y.
L’hypothèse alternative stipule que tous les coefficients ne sont pas simultanément égaux à zéro.
Les exemples suivants montrent comment décider de rejeter ou de ne pas rejeter l’hypothèse nulle dans les modèles de régression linéaire simple et de régression linéaire multiple.
Exemple 1 : Régression linéaire simple
Supposons qu’un professeur souhaite utiliser le nombre d’heures étudiées pour prédire la note à l’examen que les étudiants obtiendront dans sa classe. Il collecte des données sur 20 étudiants et ajuste un modèle de régression linéaire simple.
La capture d’écran suivante montre le résultat du modèle de régression :
Le modèle de régression linéaire simple ajusté est :
Score d’examen = 67,1617 + 5,2503*(heures étudiées)
Pour déterminer s’il existe une relation statistiquement significative entre les heures étudiées et la note de l’examen, nous devons analyser la valeur F globale du modèle et la valeur p correspondante :
- Valeur F globale : 47,9952
- Valeur P : 0,000
Puisque cette valeur p est inférieure à 0,05, nous pouvons rejeter l’hypothèse nulle. En d’autres termes, il existe une relation statistiquement significative entre les heures étudiées et les résultats obtenus à l’examen.
Exemple 2 : Régression linéaire multiple
Supposons qu’un professeur souhaite utiliser le nombre d’heures étudiées et le nombre d’examens préparatoires passés pour prédire la note que les étudiants obtiendront dans sa classe. Il collecte des données sur 20 étudiants et ajuste un modèle de régression linéaire multiple.
La capture d’écran suivante montre le résultat du modèle de régression :
Le modèle de régression linéaire multiple ajusté est :
Score d’examen = 67,67 + 5,56*(heures étudiées) – 0,60*(examens préparatoires passés)
Pour déterminer s’il existe une relation statistiquement significative entre les deux variables prédictives et la variable de réponse, nous devons analyser la valeur F globale du modèle et la valeur p correspondante :
- Valeur F globale : 23,46
- Valeur P : 0,00
Puisque cette valeur p est inférieure à 0,05, nous pouvons rejeter l’hypothèse nulle. En d’autres termes, les heures étudiées et les examens préparatoires passés ont une relation statistiquement significative avec les résultats de l’examen.
Remarque : Bien que la valeur p pour les examens préparatoires passés (p = 0,52) ne soit pas significative, les examens préparatoires combinés aux heures étudiées ont une relation significative avec les résultats de l’examen.
Ressources additionnelles
Comprendre le test F de signification globale en régression
Comment lire et interpréter un tableau de régression
Comment signaler les résultats de la régression
Comment effectuer une régression linéaire simple dans Excel
Comment effectuer une régression linéaire multiple dans Excel