Population vs échantillon : quelle est la différence ?
Souvent, dans les statistiques, nous souhaitons collecter des données afin de pouvoir répondre à certaines questions de recherche.
Par exemple, nous pourrions vouloir répondre aux questions suivantes :
1. Quel est le revenu médian des ménages à Miami, en Floride ?
2. Quel est le poids moyen d’une certaine population de tortues ?
3. Quel pourcentage de résidents d’un certain comté soutiennent une certaine loi ?
Dans chaque scénario, nous souhaitons répondre à une question sur une population , qui représente tous les éléments individuels possibles que nous souhaitons mesurer.
Cependant, au lieu de collecter des données sur chaque individu d’une population, nous collectons plutôt des données sur un échantillon de la population, qui représente une partie de la population.
Population : Chaque élément individuel possible que nous souhaitons mesurer.
Échantillon : Une partie de la population.
Voici un exemple d’une population par rapport à un échantillon dans les trois exemples d’introduction.
Exemple 1 : Quel est le revenu médian des ménages à Miami, en Floride ?
La population entière peut comprendre 500 000 ménages, mais nous pouvons collecter des données uniquement sur un échantillon de 2 000 ménages au total.
2. Quel est le poids moyen d’une certaine population de tortues ?
La population totale pourrait comprendre 800 tortues, mais nous pourrions collecter des données uniquement sur un échantillon de 30 tortues.
3. Quel pourcentage de résidents d’un certain comté soutiennent une certaine loi ?
La population totale peut comprendre 50 000 habitants, mais nous pouvons collecter des données uniquement sur un échantillon de 1 000 habitants.
Pourquoi utiliser des échantillons ?
Il existe plusieurs raisons pour lesquelles nous collectons généralement des données sur des échantillons plutôt que sur des populations entières, notamment :
1 . Il faut trop de temps pour collecter des données sur une population entière . Par exemple, si nous voulons connaître le revenu médian des ménages à Miami, en Floride, cela peut prendre des mois, voire des années, pour collecter les revenus de chaque ménage. Au moment où nous collectons toutes ces données, la population peut avoir changé ou la question de recherche qui nous intéresse peut ne plus l’être.
2. Il est trop coûteux de collecter des données sur une population entière. Il est souvent trop coûteux de collecter des données pour chaque individu d’une population, c’est pourquoi nous choisissons plutôt de collecter des données sur un échantillon.
3. Il est impossible de collecter des données sur une population entière. Dans de nombreux cas, il n’est tout simplement pas possible de collecter des données pour chaque individu d’une population. Par exemple, il peut être extrêmement difficile de retrouver et de peser chaque tortue d’une certaine population qui nous intéresse.
En collectant des données sur des échantillons, nous sommes en mesure de rassembler des informations sur une population donnée beaucoup plus rapidement et à moindre coût.
Et si notre échantillon est représentatif de la population , nous pouvons alors généraliser les résultats d’un échantillon à une population plus large avec un niveau de confiance élevé.
L’importance des échantillons représentatifs
Lorsque nous collectons un échantillon auprès d’une population, nous souhaitons idéalement que l’échantillon ressemble à une « mini-version » de notre population.
Par exemple, supposons que nous souhaitions comprendre les préférences cinématographiques des élèves d’un certain district scolaire comptant au total 5 000 élèves. Puisqu’il serait trop long d’interroger chaque étudiant individuellement, nous pourrions plutôt prendre un échantillon de 100 étudiants et leur demander quelles sont leurs préférences.
Si la population étudiante globale est composée de 50 % de filles et de 50 % de garçons, notre échantillon ne serait pas représentatif s’il comprenait 90 % de garçons et seulement 10 % de filles.
Ou si la population globale est composée à parts égales d’étudiants de première année, d’étudiants de deuxième année, de juniors et de seniors, alors notre échantillon ne serait pas représentatif s’il n’incluait que les étudiants de première année.
Un échantillon est représentatif d’une population si les caractéristiques des individus de l’échantillon correspondent étroitement aux caractéristiques des individus de la population globale.
Lorsque cela se produit, nous pouvons généraliser en toute confiance les résultats de l’échantillon à la population globale.
Comment obtenir des échantillons
Il existe de nombreuses méthodes différentes que nous pouvons utiliser pour obtenir des échantillons de populations.
Pour maximiser les chances d’obtenir un échantillon représentatif, nous pouvons utiliser l’une des trois méthodes suivantes :
Échantillonnage aléatoire simple : sélectionner des individus au hasard en utilisant un générateur de nombres aléatoires ou un moyen de sélection aléatoire.
Échantillonnage aléatoire systématique : mettez chaque membre d’une population dans un certain ordre. Choisissez un point de départ aléatoire et sélectionnez un membre sur n pour faire partie de l’échantillon.
Échantillonnage aléatoire stratifié : diviser une population en groupes. Sélectionnez au hasard quelques membres de chaque groupe pour faire partie de l’échantillon.
Dans chacune de ces méthodes, chaque individu de la population a une probabilité égale d’être inclus dans l’échantillon. Cela maximise les chances d’obtenir un échantillon qui soit une « mini version » de la population.