Un guide simple pour comprendre le test F de signification globale en régression
Ce didacticiel explique comment identifier la statistique F dans la sortie d’un tableau de régression ainsi que comment interpréter cette statistique et sa valeur p correspondante.
Comprendre le test F de signification globale
Le test F de signification globale en régression est un test permettant de déterminer si votre modèle de régression linéaire fournit ou non un meilleur ajustement à un ensemble de données qu’un modèle sans variables prédictives.
Le test F de signification globale repose sur les deux hypothèses suivantes :
Hypothèse nulle (H 0 ) : le modèle sans variables prédictives (également appelé modèle à l’origine uniquement ) s’adapte aux données ainsi qu’à votre modèle de régression.
Hypothèse alternative (H A ) : votre modèle de régression s’adapte mieux aux données que le modèle à l’origine uniquement.
Lorsque vous ajustez un modèle de régression à un ensemble de données, vous recevrez un tableau de régression en sortie, qui vous indiquera la statistique F ainsi que la valeur p correspondante pour cette statistique F.
Si la valeur p est inférieure au niveau de signification que vous avez choisi ( les choix courants sont 0,01, 0,05 et 0,10 ), vous disposez alors de preuves suffisantes pour conclure que votre modèle de régression s’adapte mieux aux données que le modèle à l’origine uniquement. modèle.
Exemple : test F en régression
Supposons que nous disposions de l’ensemble de données suivant qui montre le nombre total d’heures étudiées, le nombre total d’examens préparatoires passés et la note obtenue à l’examen final pour 12 étudiants différents :
Pour analyser la relation entre les heures étudiées et les examens préparatoires passés avec la note à l’examen final qu’un étudiant obtient, nous effectuons une régression linéaire multiple en utilisant les heures étudiées et les examens préparatoires passés comme variables prédictives et la note finale à l’examen comme variable de réponse.
Nous recevons le résultat suivant :
À partir de ces résultats, nous nous concentrerons sur la statistique F donnée dans le tableau ANOVA ainsi que sur la valeur p de cette statistique F, qui est étiquetée comme Signification F dans le tableau. Nous choisirons 0,05 comme niveau de signification.
Statistique F : 5,090515
Valeur P : 0,0332
Note technique : La statistique F est calculée comme la régression MS divisée par le résidu MS. Dans ce cas, régression MS / résidu MS = 273,2665 / 53,68151 = 5,090515 .
Étant donné que la valeur p est inférieure au niveau de signification, nous pouvons conclure que notre modèle de régression s’adapte mieux aux données que le modèle à l’origine uniquement.
Dans le contexte de ce problème spécifique, cela signifie que l’utilisation de nos variables prédictives Heures d’étude et Examens préparatoires dans le modèle nous permet de mieux ajuster les données que si nous les laissions de côté et utilisions simplement le modèle d’interception uniquement.
Notes sur l’interprétation du test F de signification globale
En général, si aucune de vos variables prédictives n’est statistiquement significative, le test F global ne sera pas non plus statistiquement significatif.
Cependant, il est possible que cela ne soit pas le cas dans certains cas, car le test F de signification globale teste si toutes les variables prédictives sont conjointement significatives, tandis que le test T de signification pour chaque variable prédictive individuelle teste simplement si chaque variable prédictive est significative. individuellement significatifs.
Ainsi, le test F détermine si toutes les variables prédictives sont conjointement significatives ou non.
Il est possible que chaque variable prédictive ne soit pas significative et pourtant le test F indique que toutes les variables prédictives combinées sont conjointement significatives.
Note technique : En général, plus vous avez de variables prédictives dans le modèle, plus la probabilité que la statistique F et la valeur p correspondante soient statistiquement significatives est élevée.
Une autre mesure que vous verrez probablement dans le résultat d’une régression est le R-carré , qui mesure la force de la relation linéaire entre les variables prédictives et la variable de réponse en est une autre.
Bien que le R au carré puisse vous donner une idée de la mesure dans laquelle les variables prédictives sont fortement associées à la variable de réponse, il ne fournit pas de test statistique formel pour cette relation.
C’est pourquoi le F-Test est utile puisqu’il s’agit d’un test statistique formel. De plus, si le test F global est significatif, vous pouvez conclure que R au carré n’est pas égal à zéro et que la corrélation entre la ou les variables prédictives et la variable de réponse est statistiquement significative.
Ressources additionnelles
Les didacticiels suivants expliquent comment interpréter d’autres valeurs courantes dans les modèles de régression :
Comment lire et interpréter un tableau de régression
Comprendre l’erreur standard de la régression
Qu’est-ce qu’une bonne valeur R au carré ?