Comment utiliser les tracés Q-Q pour vérifier la normalité



Un tracé QQ, abréviation de « quantile-quantile », est utilisé pour évaluer si un ensemble de données provient potentiellement d’une distribution théorique.

Dans la plupart des cas, ce type de tracé est utilisé pour déterminer si un ensemble de données suit ou non une distribution normale.

Si les données sont distribuées normalement, les points d’un tracé QQ se trouveront sur une ligne diagonale droite.

À l’inverse, plus les points du graphique s’écartent considérablement d’une ligne diagonale droite, moins l’ensemble de données est susceptible de suivre une distribution normale.

Les exemples suivants montrent comment créer des tracés QQ dans R pour vérifier la normalité.

Exemple 1 : tracé QQ pour des données normales

Le code suivant montre comment générer un ensemble de données normalement distribué avec 200 observations et créer un tracé QQ pour l’ensemble de données dans R :

#make this example reproducible
set.seed(1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create Q-Q plot
qqnorm(data)
qqline(data)

Nous pouvons voir que les points se situent principalement le long de la ligne diagonale droite avec quelques déviations mineures le long de chacune des queues.

Sur la base de ce graphique, nous pouvons supposer en toute sécurité que cet ensemble de données est normalement distribué.

Exemple 2 : tracé QQ pour des données non normales

Le code suivant montre comment créer un tracé QQ pour un ensemble de données qui suit une distribution exponentielle avec 200 observations :

#make this example reproducible
set.seed(1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create Q-Q plot
qqnorm(data)
qqline(data)

On voit que les points s’écartent considérablement de la droite diagonale. Cela indique clairement que l’ensemble de données n’est pas normalement distribué.

Cela devrait avoir du sens étant donné que nous avons précisé que les données doivent suivre une distribution exponentielle.

Tracés QQ et histogrammes

Il convient de noter que les tracés QQ sont un moyen de vérifier visuellement si un ensemble de données suit ou non une distribution normale.

Une autre façon de vérifier visuellement la normalité consiste à créer un histogramme de l’ensemble de données. Si les données suivent approximativement une forme de courbe en cloche dans l’histogramme, nous pouvons alors supposer que l’ensemble de données est normalement distribué.

Par exemple, voici comment créer un histogramme pour l’ensemble de données normalement distribué précédemment :

#make this example reproducible
set.seed(1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data)

Et voici comment créer un histogramme pour l’ensemble de données qui suit une distribution exponentielle antérieure :

#make this example reproducible
set.seed(1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data)

On voit que l’histogramme ne ressemble pas du tout à une courbe en cloche, ce qui indique clairement que les données ne suivent pas une distribution normale.

Ressources additionnelles

Qu’est-ce que l’hypothèse de normalité en statistique ?
Comment créer un tracé QQ dans R
Comment créer un tracé QQ dans Excel
Comment créer un tracé QQ en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *