Comprendre l’hétéroscédasticité dans l’analyse de régression
Dans l’analyse de régression, l’hétéroscédasticité (parfois orthographiée hétéroscédasticité) fait référence à la dispersion inégale des résidus ou des termes d’erreur. Plus précisément, il s’agit du cas où il y a un changement systématique dans la répartition des résidus sur la plage des valeurs mesurées.
L’hétéroscédasticité est un problème car la régression des moindres carrés ordinaires (OLS) suppose que les résidus proviennent d’une population qui a une homoscédasticité , ce qui signifie une variance constante.
Lorsque l’hétéroscédasticité est présente dans une analyse de régression, les résultats de l’analyse deviennent difficiles à croire. Plus précisément, l’hétéroscédasticité augmente la variance des estimations du coefficient de régression, mais le modèle de régression n’en tient pas compte.
Cela rend beaucoup plus probable qu’un modèle de régression déclare qu’un terme du modèle est statistiquement significatif, alors qu’en réalité il ne l’est pas.
Ce didacticiel explique comment détecter l’hétéroscédasticité, les causes de l’hétéroscédasticité et les moyens potentiels de résoudre le problème de l’hétéroscédasticité.
Comment détecter l’hétéroscédasticité
Le moyen le plus simple de détecter l’hétéroscédasticité consiste à utiliser un graphique valeur ajustée/résiduelle .
Une fois que vous avez ajusté une droite de régression à un ensemble de données, vous pouvez créer un nuage de points qui montre les valeurs ajustées du modèle par rapport aux résidus de ces valeurs ajustées.
Le nuage de points ci-dessous montre un graphique typique de la valeur ajustée par rapport au résidu dans lequel l’hétéroscédasticité est présente.
Remarquez comment les résidus s’étalent de plus en plus à mesure que les valeurs ajustées augmentent. Cette forme de « cône » est un signe révélateur d’hétéroscédasticité.
Quelles sont les causes de l’hétéroscédasticité ?
L’hétéroscédasticité se produit naturellement dans les ensembles de données où il existe une large gamme de valeurs de données observées. Par exemple:
- Prenons un ensemble de données comprenant les revenus et dépenses annuels de 100 000 personnes aux États-Unis. Pour les personnes ayant des revenus plus faibles, la variabilité des dépenses correspondantes sera plus faible, car ces personnes n’auront probablement que suffisamment d’argent pour payer les nécessités. Pour les individus ayant des revenus plus élevés, il y aura une plus grande variabilité dans les dépenses correspondantes puisque ces individus auront plus d’argent à dépenser s’ils le souhaitent. Certaines personnes aux revenus plus élevés choisiront de dépenser la majeure partie de leurs revenus, tandis que d’autres choisiront d’être économes et de n’en dépenser qu’une partie. C’est pourquoi la variabilité des dépenses parmi ces personnes aux revenus plus élevés sera intrinsèquement plus élevée.
- Prenons un ensemble de données incluant les populations et le nombre de fleuristes dans 1 000 villes différentes aux États-Unis. Pour les villes peu peuplées, il peut être courant de n’avoir qu’un ou deux fleuristes présents. Mais dans les villes plus peuplées, le nombre de fleuristes sera beaucoup plus variable. Ces villes peuvent compter entre 10 et 100 magasins. Cela signifie que lorsque nous créons une analyse de régression et utilisons la population pour prédire le nombre de fleuristes, il y aura intrinsèquement une plus grande variabilité dans les résidus pour les villes les plus peuplées.
Certains ensembles de données sont simplement plus sujets à l’hétéroscédasticité que d’autres.
Comment réparer l’hétéroscédasticité
Il existe trois manières courantes de corriger l’hétéroscédasticité :
1. Transformez la variable dépendante
Une façon de corriger l’hétéroscédasticité consiste à transformer la variable dépendante d’une manière ou d’une autre. Une transformation courante consiste simplement à prendre le journal de la variable dépendante.
Par exemple, si nous utilisons la taille de la population (variable indépendante) pour prédire le nombre de fleuristes dans une ville (variable dépendante), nous pouvons plutôt essayer d’utiliser la taille de la population pour prédire le logarithme du nombre de fleuristes dans une ville.
L’utilisation du log de la variable dépendante, plutôt que de la variable dépendante d’origine, entraîne souvent la disparition de l’hétéroscédasticité.
2. Redéfinir la variable dépendante
Une autre façon de corriger l’hétéroscédasticité consiste à redéfinir la variable dépendante. Une façon courante de procéder consiste à utiliser un taux pour la variable dépendante, plutôt que la valeur brute.
Par exemple, au lieu d’utiliser la taille de la population pour prédire le nombre de fleuristes dans une ville, nous pouvons utiliser la taille de la population pour prédire le nombre de fleuristes par habitant.
Dans la plupart des cas, cela réduit la variabilité qui se produit naturellement au sein de populations plus importantes puisque nous mesurons le nombre de fleuristes par personne, plutôt que le nombre même de fleuristes.
3. Utilisez la régression pondérée
Une autre façon de corriger l’hétéroscédasticité consiste à utiliser la régression pondérée. Ce type de régression attribue un poids à chaque point de données en fonction de la variance de sa valeur ajustée.
Essentiellement, cela donne de faibles poids aux points de données qui ont des variances plus élevées, ce qui réduit leurs carrés résiduels. Lorsque les pondérations appropriées sont utilisées, cela peut éliminer le problème de l’hétéroscédasticité.
Conclusion
L’hétéroscédasticité est un problème assez courant lorsqu’il s’agit d’analyse de régression, car de nombreux ensembles de données sont intrinsèquement sujets à une variance non constante.
Cependant, en utilisant un graphique de valeur ajustée par rapport à un graphique résiduel , il peut être assez facile de repérer l’hétéroscédasticité.
Et en transformant la variable dépendante, en redéfinissant la variable dépendante ou en utilisant une régression pondérée, le problème de l’hétéroscédasticité peut souvent être éliminé.