Homoscédasticité
Cet article explique ce qu’est l’homoscédasticité dans les statistiques. Ainsi, vous trouverez la définition de l’homoscédasticité, quelles sont les causes d’un modèle de régression n’ayant pas d’homoscédasticité et, en outre, comment y remédier.
Qu’est-ce que l’homoscédasticité ?
L’homoscédasticité est une caractéristique d’un modèle de régression dont les erreurs des variables explicatives ont une variance constante. Autrement dit, lorsque la variance des erreurs d’un modèle de régression est constante, ledit modèle présente une homoscédasticité et, par conséquent, il s’agit d’un modèle homoscédastique.
Rappelons que l’erreur (ou résidu) est définie comme la différence entre la valeur réelle et la valeur estimée par le modèle de régression.
Lors de l’exécution d’un modèle de régression, nous obtiendrons une valeur différente de l’expression précédente pour chaque observation. Ainsi, un modèle statistique homoscédastique est un modèle dans lequel la variance des erreurs calculées est constante tout au long des observations.
Il est important qu’un modèle de régression présente une homoscédasticité ; en fait, c’est l’une des hypothèses précédentes des modèles de régression. Si les résidus ne sont pas homoscédastiques, il vaut mieux refaire le modèle d’une autre manière pour obtenir l’homoscédasticité. Dans le cas contraire, l’estimation des coefficients de régression risque d’être erronée et des erreurs dans les tests d’hypothèses se produiront également en acceptant des hypothèses nulles qui devraient en réalité être rejetées.
Causes de l’absence d’homoscédasticité
Les causes les plus fréquentes pour lesquelles un modèle n’a pas d’homoscédasticité sont les suivantes :
- Lorsque la plage de données est très large par rapport à la moyenne. Si dans un même échantillon statistique il y a des valeurs très grandes et des valeurs très petites, il est probable que le modèle de régression obtenu ne soit pas homoscédastique.
- L’omission de variables dans le modèle de régression entraîne également un manque d’homoscédasticité. Logiquement, si une variable pertinente n’est pas incluse dans le modèle, sa variation sera incluse dans les résidus et ne sera pas nécessairement fixe.
- Un changement dans la structure peut produire un mauvais ajustement du modèle à l’ensemble de données et, par conséquent, la variance des résidus n’est pas constante.
- Lorsque certaines variables ont des valeurs beaucoup plus grandes que les autres variables explicatives, le modèle peut ne pas avoir d’homoscédasticité. Dans ce cas, les variables peuvent être relativisées pour résoudre le problème.
Cependant, il existe certains cas qui, par nature, sont difficiles à présenter comme homoscédasticité. Par exemple, si nous modélisons le revenu d’une personne avec ses dépenses alimentaires, les personnes les plus riches ont une bien plus grande variabilité dans leurs dépenses alimentaires que les personnes les plus pauvres. Car une personne riche mange parfois dans des restaurants chers et d’autres fois dans des restaurants bon marché, contrairement à une personne pauvre qui mange toujours dans des restaurants bon marché. Par conséquent, il est difficile d’obtenir une homoscédasticité dans le modèle de régression.
Correction des données pour obtenir l’homoscédasticité
Lorsque le modèle de régression obtenu n’est pas homoscédastique, on peut tenter les corrections suivantes pour atteindre l’homoscédasticité :
- Calculez le logarithme népérien de la variable indépendante, ceci est généralement utile lorsque la variance des résidus augmente dans le graphique.
- Selon le graphique des résidus, un autre type de transformation de la variable indépendante peut être plus pratique. Par exemple, si le graphique a la forme d’une parabole, nous pouvons calculer le carré de la variable indépendante et ajouter cette variable au modèle.
- D’autres variables peuvent également être utilisées pour le modèle ; en supprimant ou en ajoutant une variable, la variance des résidus peut être modifiée.
- Au lieu d’utiliser le critère des moindres carrés, le critère des moindres carrés pondérés peut être utilisé.
Homoscédasticité et hétéroscédasticité
Enfin, nous verrons quelle est la différence entre homoscédasticité et hétéroscédasticité, puisque ce sont deux concepts statistiques importants des modèles de régression.
L’hétéroscédasticité est une caractéristique statistique qui implique que les résidus du modèle de régression n’ont pas une variance constante, de sorte que la variabilité des erreurs n’est pas la même tout au long du tracé.
La différence entre l’homoscédasticité et l’hétéroscédasticité est la constance de la variance d’erreur. L’homoscédasticité implique que la variance des erreurs est constante, tandis que l’hétéroscédasticité implique que la variance des erreurs n’est pas constante.