Moyenne de l’échantillon par rapport à la moyenne de la population : quelle est la différence ?
Souvent, dans les statistiques, nous souhaitons répondre à des questions telles que :
- Quel est le revenu moyen d’un ménage dans une certaine ville ?
- Quel est le poids moyen d’une certaine espèce de tortue ?
- Quelle est la fréquentation moyenne des matchs de football universitaire ?
Dans chaque scénario, nous souhaitons répondre à une question sur une population , qui représente tous les éléments individuels possibles que nous souhaitons mesurer.
Cependant, au lieu de collecter des données sur chaque individu d’une population, nous collectons plutôt des données sur un échantillon de la population, qui représente une partie de la population totale.
Par exemple, nous pourrions vouloir connaître le poids moyen d’une certaine espèce de tortue qui compte une population totale de 800 tortues.
Comme il faudrait trop de temps pour localiser et peser chaque tortue de la population, nous collectons plutôt un simple échantillon aléatoire de 30 tortues et mesurons leur poids :
Nous pourrions alors utiliser le poids moyen de cet échantillon de tortues pour estimer le poids moyen de toutes les tortues de la population.
Comment calculer la moyenne de l’échantillon
La formule pour calculer la moyenne de l’échantillon, souvent notée x , est la suivante :
x = Σx je / n
où:
- Σ : Un symbole grec sophistiqué qui signifie « somme »
- x i : La valeur de la ième observation dans l’ensemble de données
- n : La taille de l’échantillon
Par exemple, supposons que nous collections un échantillon de 10 tortues ayant les poids suivants (en livres) :
- 70, 80, 80, 85, 90, 95, 110, 120, 140, 150
La moyenne de l’échantillon serait calculée comme suit :
- x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
Pourquoi la moyenne de l’échantillon est impartiale
Dans le jargon statistique, nous dirions que la moyenne de l’échantillon est une statistique tandis que la moyenne de la population est un paramètre .
Voici la différence entre les deux termes :
Une statistique est un nombre qui décrit certaines caractéristiques d’un échantillon.
Un paramètre est un nombre qui décrit une caractéristique d’une population.
Le paramètre est la valeur que nous souhaitons réellement mesurer, mais la statistique est la valeur que nous utilisons pour estimer la valeur du paramètre puisque la statistique est beaucoup plus facile à obtenir.
Lorsque nous utilisons une méthode telle que l’échantillonnage aléatoire simple pour obtenir un échantillon, nous disons que la moyenne de l’échantillon est un estimateur impartial de la moyenne de la population.
En d’autres termes, nous n’avons aucune raison de croire que la moyenne de l’échantillon sous-estimerait ou surestimerait la moyenne réelle de la population.
La raison en est que lorsque nous utilisons une méthode telle que l’échantillonnage aléatoire simple, chaque membre de la population a une chance égale d’être inclus dans l’échantillon, ce qui signifie que l’échantillon est susceptible d’être une « mini-version » de la population globale.
Nous dirions que l’échantillon est représentatif de la population globale , ce qui signifie que la moyenne de l’échantillon doit être une bonne estimation de la moyenne de la population, en supposant que la taille de l’échantillon est suffisamment grande.
Sur l’utilisation des intervalles de confiance avec la moyenne de l’échantillon
Bien que la moyenne de l’échantillon fournisse une estimation impartiale de la moyenne de la population, il est peu probable qu’elle corresponde exactement à la moyenne de la population.
Par exemple, si nous voulons utiliser un échantillon de tortues pour estimer le poids moyen d’une population de tortues, il est possible que nous choisissions un échantillon rempli de tortues de faible poids ou peut-être un échantillon rempli de tortues lourdes.
Afin de capturer cette incertitude autour de notre estimation de la moyenne de la population, nous pouvons créer un intervalle de confiance .
Un intervalle de confiance est une plage de valeurs susceptible de contenir un paramètre de population avec un certain niveau de confiance.
Par exemple, nous pourrions collecter un échantillon de 30 tortues et constater que le poids moyen de cet échantillon est de 102 livres. Si nous construisons ensuite un intervalle de confiance à 95 %, nous pourrions constater que l’intervalle est le suivant :
Intervalle de confiance à 95 % = [98,5, 105,5]
Nous interpréterions cela comme signifiant qu’il y a 95 % de chances que l’intervalle de confiance de [98,5, 105,5] contienne le poids moyen réel de la population de tortues.
Cet intervalle de confiance est plus utile que la simple moyenne de l’échantillon, car il nous donne une plage de valeurs dans laquelle la véritable moyenne de la population est susceptible de se situer.
Ressources additionnelles
Population vs échantillon : quelle est la différence ?
Statistique vs paramètre : quelle est la différence ?
Une introduction aux intervalles de confiance