Théorème central limite : définition + exemples



Le théorème central limite stipule que la distribution d’échantillonnage d’une moyenne d’échantillon est approximativement normale si la taille de l’échantillon est suffisamment grande, même si la distribution de la population n’est pas normale .

Le théorème central limite indique également que la distribution d’échantillonnage aura les propriétés suivantes :

1. La moyenne de la distribution d’échantillonnage sera égale à la moyenne de la distribution de la population :

x = µ

2. La variance de la distribution d’échantillonnage sera égale à la variance de la distribution de la population divisée par la taille de l’échantillon :

s 2 = σ 2 / n

Exemples du théorème central limite

Voici quelques exemples pour illustrer le théorème central limite dans la pratique.

La distribution uniforme

Supposons que la largeur de la carapace d’une tortue suive une distribution uniforme avec une largeur minimale de 2 pouces et une largeur maximale de 6 pouces. Autrement dit, si nous sélectionnons une tortue au hasard et mesurons la largeur de sa carapace, il est également probable qu’elle ait une largeur comprise entre 2 et 6 pouces.

Si nous faisions un histogramme pour représenter la distribution des largeurs de carapace de tortue, cela ressemblerait à ceci :

Exemple de distribution uniforme du théorème central limite
La moyenne d’une distribution uniforme est μ = (b+a) / 2 où b est la plus grande valeur possible et a est la plus petite valeur possible. Dans ce cas, c’est (6+2) / 2 = 4.

La variance d’une distribution uniforme est σ 2 = (ba) 2 / 12. Dans ce cas, c’est (6-2) 2 / 12 = 1,33

Prélèvement d’échantillons aléatoires de 2 à partir de la distribution uniforme

Imaginez maintenant que nous prenions un échantillon aléatoire de 2 tortues de cette population et que nous mesurions la largeur de la carapace de chaque tortue. Supposons que la carapace de la première tortue ait une largeur de 3 pouces et que la seconde ait une largeur de 6 pouces. La largeur moyenne de cet échantillon de 2 tortues est de 4,5 pouces.

Ensuite, imaginez que nous prenions un autre échantillon aléatoire de 2 tortues de cette population et que nous mesurions à nouveau la largeur de la carapace de chaque tortue. Supposons que la carapace de la première tortue ait une largeur de 2,5 pouces et que la seconde ait également une largeur de 2,5 pouces. La largeur moyenne de cet échantillon de 2 tortues est de 2,5 pouces.

Imaginez que nous continuions à prélever encore et encore des échantillons aléatoires de 2 tortues et que nous continuions à trouver la largeur moyenne de la carapace à chaque fois.

Si nous faisions un histogramme pour représenter la largeur moyenne de la carapace de tous ces échantillons de 2 tortues, cela ressemblerait à ceci :

Théorème central limite pour la taille d'échantillon 2 pour une distribution uniforme
C’est ce qu’on appelle la distribution d’échantillonnage pour la moyenne de l’échantillon, car elle montre la distribution des moyennes de l’échantillon.

La moyenne de cette distribution d’échantillonnage est x = μ = 4

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 1,33 / 2 = 0,665

Prélèvement d’échantillons aléatoires de 5 à partir de la distribution uniforme

Maintenant, imaginez que nous répétions la même expérience, mais cette fois, nous prenons encore et encore des échantillons aléatoires de 5 tortues et trouvons à chaque fois la largeur moyenne de la carapace.

Si nous faisions un histogramme pour représenter la largeur moyenne de la carapace de tous ces échantillons de 5 tortues, cela ressemblerait à ceci :

Théorème central limite pour une distribution uniforme de la taille de l'échantillon 5
Remarquez que cette distribution a davantage la forme d’une « cloche » qui ressembleà la distribution normale . En effet, lorsque nous prenons des échantillons de 5, la variance entre les moyennes de nos échantillons est beaucoup plus faible, nous sommes donc moins susceptibles d’obtenir des échantillons dont la moyenne est proche de 2 pouces ou de 6 pouces et plus susceptibles d’obtenir des échantillons dont la moyenne est proche de 2 pouces ou de 6 pouces. la moyenne est plus proche de la moyenne réelle de la population de 4 pouces.

La moyenne de cette distribution d’échantillonnage est x = μ = 4

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 1,33 / 5 = 0,266

Prélèvement d’échantillons aléatoires de 30 à partir de la distribution uniforme

Maintenant, imaginez que nous répétions la même expérience, mais cette fois-ci, nous prélevons encore et encore des échantillons aléatoires de 30 tortues et trouvons à chaque fois la largeur moyenne de la carapace.

Si nous faisions un histogramme pour représenter la largeur moyenne de la carapace de tous ces échantillons de 30 tortues, cela ressemblerait à ceci :

Théorème central limite pour une taille d'échantillon de 30
Remarquez que cette distribution d’échantillonnage a encore plus la forme d’une cloche et est beaucoup plus étroite que les deux distributions précédentes.

La moyenne de cette distribution d’échantillonnage est x = μ = 4

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 1,33 / 30 = 0,044

La distribution du chi carré

Supposons que le nombre d’animaux de compagnie par famille dans une certaine ville suive une distribution du chi carré avec trois degrés de liberté. Si nous faisions un histogramme pour représenter la répartition des animaux par famille, cela ressemblerait à ceci :

Théorème central limite pour la distribution du chi carré

La moyenne d’une distribution du chi carré est simplement le nombre de degrés de liberté (df). Dans ce cas, μ = 3 .

La variance d’une distribution du Chi carré est de 2 * df. Dans ce cas, σ 2 = 2 * 3 = 6 .

Prélèvement d’échantillons aléatoires de 2

Imaginez que nous prenions un échantillon aléatoire de 2 familles de cette population et que nous comptions le nombre d’animaux de compagnie dans chaque famille. Supposons que la première famille ait 4 animaux de compagnie et que la deuxième famille ait 1 animal de compagnie. Le nombre moyen d’animaux de compagnie pour cet échantillon de 2 familles est de 2,5.

Imaginez ensuite que nous prenions un autre échantillon aléatoire de 2 familles de cette population et que nous comptions à nouveau le nombre d’animaux de compagnie dans chaque famille. Supposons que la première famille ait 6 animaux de compagnie et que la deuxième famille ait 4 animaux de compagnie. Le nombre moyen d’animaux de compagnie pour cet échantillon de 2 familles est de 5.

Imaginez que nous continuions à prélever encore et encore des échantillons aléatoires de 2 familles et que nous continuions à trouver le nombre moyen d’animaux de compagnie à chaque fois.

Si l’on faisait un histogramme pour représenter le nombre moyen d’animaux de compagnie de tous ces échantillons de 2 familles, cela ressemblerait à ceci :

Théorème central limite avec une taille d'échantillon de distribution du chi carré de 2

La moyenne de cette distribution d’échantillonnage est x = μ = 3

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 6 / 2 = 3

Prélèvement d’échantillons aléatoires de 10

Maintenant, imaginez que nous répétions la même expérience, mais cette fois-ci, nous prenons encore et encore des échantillons aléatoires de 10 familles et trouvons à chaque fois le nombre moyen d’animaux par famille.

Si nous faisions un histogramme pour représenter le nombre moyen d’animaux par famille dans tous ces échantillons de 10 familles, cela ressemblerait à ceci :

Théorème central limite avec distribution du chi carré

La moyenne de cette distribution d’échantillonnage est x = μ = 3

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 6/10 = 0,6

Prélèvement d’échantillons aléatoires de 30

Maintenant, imaginez que nous répétions la même expérience, mais cette fois-ci, nous prenons encore et encore des échantillons aléatoires de 30 familles et trouvons à chaque fois le nombre moyen d’animaux par famille.

Si nous faisions un histogramme pour représenter le nombre moyen d’animaux par famille dans tous ces échantillons de 30 familles, cela ressemblerait à ceci :

Histogramme du théorème central limite avec distribution du chi carré

La moyenne de cette distribution d’échantillonnage est x = μ = 3

La variance de cette distribution d’échantillonnage est s 2 = σ 2 / n = 6/30 = 0,2

Résumé

Voici les principaux points à retenir de ces deux exemples :

  • La distribution d’échantillonnage d’une moyenne d’échantillon est approximativement normale si la taille de l’échantillon est suffisamment grande, même si la distribution de la population n’est pas normale . Dans les deux exemples ci-dessus, ni la distribution uniforme ni la distribution du chi carré n’étaient normales (elles n’avaient pas du tout la forme d’une « cloche »), mais lorsque nous avons pris un échantillon suffisamment grand, la distribution de la moyenne de l’échantillon s’est transformée en semble être normal.
  • Plus la taille de l’échantillon est grande, plus la variance de la moyenne de l’échantillon est faible.

Définir « assez grand »

Rappelons que le théorème central limite stipule que la distribution d’échantillonnage d’une moyenne d’échantillon est approximativement normale si la taille de l’échantillon est « suffisamment grande » , même si la distribution de la population n’est pas normale.

Il n’existe pas de définition exacte de la taille d’un échantillon pour que le théorème central limite s’applique, mais en général, cela dépend de l’asymétrie de la distribution de la population d’où provient l’échantillon :

  • Si la répartition de la population est symétrique, une taille d’échantillon aussi petite que 15 suffit parfois.
  • Si la répartition de la population est asymétrique, un échantillon d’au moins 30 personnes est généralement nécessaire.
  • Si la répartition de la population est extrêmement asymétrique, un échantillon de 40 personnes ou plus peut être nécessaire.

Consultez ce didacticiel sur la condition d’un grand échantillon pour plus d’informations sur ce sujet.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *