Что такое репрезентативная выборка и почему она важна?
В статистике нас часто интересует изучение характеристик конкретных групп населения. Например, нам может быть интересно изучить:
- Общая удовлетворенность работой инженеров-механиков в конкретном городе.
- Политические предпочтения людей в определенном округе.
- Возрастное распределение людей в определенной стране.
- Кинематографические предпочтения учащихся определенной школы.
В каждом из этих примеров мы хотим лучше понять определенную группу населения .
Популяция: вся группа людей, которую вы хотите изучить.
К сожалению, сбор данных о каждом человеке в популяции может оказаться дорогостоящим и трудоемким. Вот почему исследователи обычно собирают данные по выборке населения, а затем обобщают результаты выборки на всю совокупность.
Выборка: подгруппа населения.
Например, предположим, что мы хотим понять предпочтения в кино учащихся определенной школы, в которой в общей сложности учится 1000 учеников. Поскольку опрос каждого студента в отдельности занял бы слишком много времени, вместо этого мы могли бы взять случайную выборку из 100 студентов и спросить их об их предпочтениях.
1000 студентов представляют генеральную совокупность, а 100 случайно выбранных студентов представляют собой выборку. Собрав данные для выборки из 100 учащихся, мы можем обобщить эти результаты на общую совокупность из 1000 учащихся, но только в том случае, если наша выборка является репрезентативной для нашей совокупности .
Репрезентативная выборка: Выборка, в которой характеристики отдельных лиц близко соответствуют характеристикам генеральной совокупности.
В идеале мы хотим, чтобы наша выборка напоминала «мини-версию» нашей популяции. Таким образом, если общая численность учащихся состоит из 50% девочек и 50% мальчиков, наша выборка не будет репрезентативной, если она будет включать 90% мальчиков и только 10% девочек.
Или, если общая численность населения состоит из равных частей первокурсников, второкурсников, младших и старших классов, тогда наша выборка не была бы репрезентативной, если бы она включала только первокурсников.
Важность получения репрезентативной выборки
Причина, по которой нам нужна репрезентативная выборка, заключается в том, что мы можем с уверенностью обобщить результаты выборки на генеральную совокупность.
Например, предположим, что мы хотим знать, какой процент учеников определенной школы предпочитает «драму» своим любимым жанром кино. Если общая численность учащихся представляет собой смесь 50% мальчиков и 50% девочек, то выборка, состоящая из 90% мальчиков и 10% девочек, может привести к необъективным результатам, если значительно меньше мальчиков предпочитают театр как любимый жанр.
Или, если общая численность населения представляет собой равное сочетание первокурсников, второкурсников, младших и старших классов, то выборка, включающая только первокурсников, также может привести к необъективным результатам, если младшие студенты (например, первокурсники) склонны предпочитать театр гораздо чаще, чем первокурсники. старшеклассники.
Если характеристики людей в нашей выборке не соответствуют характеристикам людей в общей популяции, то мы не можем с уверенностью обобщить результаты выборки на всю популяцию.
Как получить репрезентативную выборку
Чтобы максимизировать вероятность получения репрезентативной выборки, при получении выборки нам нужно сосредоточиться на двух вещах:
1. Используйте подходящий метод отбора проб.
Существует много способов получить выборку генеральной совокупности , но вот три метода, с помощью которых можно получить репрезентативную выборку:
Простая случайная выборка: выберите людей случайным образом с помощью генератора случайных чисел или средств случайного отбора.
- Пример: присвойте номер 1000 ученикам. Затем используйте генератор случайных чисел, чтобы выбрать 100 случайных чисел и использовать соответствующих учащихся в качестве членов выборки.
- Преимущество: простые случайные выборки обычно репрезентативны для интересующей совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.
Систематическая случайная выборка: расположите каждого члена популяции в определенном порядке. Выберите случайную отправную точку и выберите одного участника из n, который станет частью выборки.
- Пример. Создайте алфавитный список на основе фамилий всех 1000 учащихся, случайным образом выберите отправную точку и выберите каждого десятого ученика для включения в выборку.
- Преимущество: систематические случайные выборки, как правило, репрезентативны для интересующей совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.
Стратифицированная случайная выборка: разделите совокупность на группы. Случайным образом выберите несколько членов из каждой группы, чтобы они вошли в выборку.
- Пример: разделите всех студентов по их уровню: первокурсники, второкурсники, младшие и старшие классы. Случайным образом выберите по 25 учащихся из каждого класса, которые станут частью выборки.
- Преимущество: стратифицированная случайная выборка гарантирует, что в выборку будет включено равное количество учащихся каждого класса.
2. Убедитесь, что выборка достаточно велика.
Помимо использования подходящего метода выборки, важно убедиться, что выборка достаточно велика, чтобы у нас было достаточно данных для обобщения на более крупную совокупность.
Например, выборка из восьми учащихся – по одному мальчику и одной девочке из каждого класса – может представлять собой мини-версию совокупности в целом, но она, вероятно, недостаточно велика, чтобы отразить всю вариативность, которая естественным образом существует в ответах учащихся. .
Итак, насколько большой должна быть ваша выборка?
Это зависит от следующих факторов:
- Размер популяции. Как правило, чем больше размер популяции, тем больше должна быть выборка. Например, вам понадобится гораздо большая выборка, если вы хотите обобщить результаты на всю страну, а не на один город.
- Уровень уверенности: насколько вы хотите быть уверены в том, что истинная ценность интересующей вас совокупности находится в пределах вашего доверительного интервала. Общие уровни достоверности включают 90%, 95% и 99%. Чем выше уровень достоверности, тем больше должна быть ваша выборка.
- Погрешность: сколько ошибок вы готовы терпеть. Ни одна выборка не будет идеальной, поэтому вы должны быть готовы допустить хотя бы некоторую долю ошибок. Большинство исследований сообщают о своих результатах с долей погрешности, например: «40% студентов сказали, что театр — их любимый жанр кино, с погрешностью +/- 5%». » Чем ниже погрешность, тем меньше должна быть ваша выборка.
В Интернете есть множество калькуляторов размера выборки, которые помогут вам определить размер выборки на основе этих факторов. Этот калькулятор от Survey Monkey особенно прост в использовании.
Что следует иметь в виду
Даже если вы используете правильный метод выборки и убедитесь, что ваша выборка достаточно велика, имейте в виду следующее:
- Всегда будет ошибка выборки. Выборка никогда не будет полностью репрезентативной для населения в целом.
- В целом, чем больше выборка, тем более репрезентативной она является для населения.
- Вам необходимо сбалансировать размер выборки с реальными переменными, такими как время и стоимость. Более крупная выборка с большей вероятностью будет отражать всю совокупность населения, но ее получение может оказаться более дорогостоящим и трудоемким.