Données groupées

Cet article explique ce que sont les données regroupées et comment les données sont regroupées. De plus, vous trouverez un exercice résolu dans lequel les données sont regroupées par intervalles.

Que sont les données groupées ?

En statistiques, les données groupées sont des données regroupées en intervalles. Autrement dit, les données groupées sont des données collectées à intervalles réguliers pour pouvoir les étudier ensemble.

Ainsi, lors du regroupement d’un ensemble de données statistiques, celles-ci sont séparées en différents intervalles, de sorte que chaque donnée ne peut appartenir qu’à un seul intervalle.

En bref, en statistique, le regroupement de données permet d’analyser conjointement plusieurs données, de sorte que les données regroupées dans un intervalle soient traitées comme une seule donnée. De plus, la mise en commun des données est très utile lorsque l’échantillon est très grand.

Exemple de données groupées

En regardant la définition des données groupées, vous trouverez ci-dessous un exemple concret de la façon dont un ensemble de données est regroupé en différents intervalles.

  • La taille d’un échantillon de 50 personnes différentes a été mesurée et toutes les valeurs ont été enregistrées dans le tableau de données suivant. Regroupez l’ensemble de données en intervalles, puis représentez les données graphiquement.

Tout d’abord, nous devons séparer les données en intervalles. Il existe de nombreuses méthodes pour cela, mais la règle de Sturges est la plus utilisée, car elle permet de calculer le nombre idéal d’intervalles :

\begin{array}{l}c=1+\log_2(N)\\[2ex]c=1+\log_2(50)\\[2ex]c=1+5,64\\[2ex]c=6,64\\[2ex]c\approx 7\end{array}

Nous devons donc séparer les données en sept intervalles différents. Il nous faut maintenant connaître la largeur que doit avoir chaque intervalle. Pour ce faire, il suffit de diviser la valeur maximale moins la valeur minimale par le nombre total d’intervalles :

a=\cfrac{\text{valor m\'aximo}-\text{valor m\'inimo}}{c}=\cfrac{205-145}{7}=8,57\approx 9

En bref, il doit y avoir 7 intervalles d’amplitude 9, donc les intervalles calculés selon la règle de Sturges sont les suivants :

[145,154)

[154,163)

[163,172)

[172,181)

[181,190)

[190,199)

[199,208)

Et une fois qu’on a calculé les intervalles, on compte le nombre de fois qu’une donnée apparaît dans chaque intervalle et on construit un tableau avec les données regroupées :

Gardez à l’esprit qu’encore plus de types de fréquences peuvent être calculés à partir de données groupées (fréquence relative, fréquence cumulée, etc.). Pour voir comment créer un tableau de fréquence complet avec des données groupées, cliquez ici :

Enfin, à partir du tableau avec la fréquence de chaque intervalle, nous pouvons représenter graphiquement les données regroupées dans un histogramme.

histogramme de la règle de Sturges, statistiques

Données groupées et non groupées

Les données non groupées sont les données qui ne sont pas séparées en intervalles, mais chaque valeur est étudiée séparément.

En suivant l’exemple élaboré ci-dessus, si nous n’avions pas regroupé les données, nous aurions dû trouver la fréquence de chaque valeur. Autrement dit, nous aurions dû calculer combien de fois la valeur 158, 165, 174, etc. est répétée. Cependant, dans ce cas, il était préférable de regrouper les données par intervalles car nous disposions d’une grande quantité de données et, en outre, de nombreuses valeurs étaient similaires.

Par conséquent, lors d’une étude statistique, avant d’effectuer des calculs, il est important de décider si les données doivent être regroupées par intervalles ou non, car cela conditionnera le reste de l’enquête.

Quand faut-il regrouper les données ?

En général, les données doivent être regroupées en intervalles lorsque la variable est continue. Si la variable est continue, nous avons normalement de nombreuses valeurs et elles sont très proches les unes des autres, elles peuvent donc être regroupées en intervalles pour simplifier l’étude.

Logiquement, même si la variable n’est pas continue, si nous disposons de beaucoup de données, elle peut également être regroupée en intervalles, facilitant ainsi l’analyse statistique. Mais généralement le critère de regroupement des données est le type de variable : si la variable est continue, les données sont généralement séparées en intervalles.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *