Среднее значение выборки и среднее значение генеральной совокупности: в чем разница?
Часто в статистике мы хотим ответить на такие вопросы, как:
- Каков средний доход семьи в определенном городе?
- Каков средний вес черепах определенного вида?
- Какова средняя посещаемость футбольных матчей колледжа?
В каждом сценарии мы хотим ответить на вопрос о совокупности , которая представляет все возможные отдельные элементы, которые мы хотим измерить.
Однако вместо сбора данных о каждом человеке в популяции мы собираем данные о выборке населения, которая представляет собой часть общей численности населения.
Например, мы можем захотеть узнать средний вес черепах определенного вида, общая популяция которого составляет 800 черепах.
Поскольку поиск и взвешивание каждой черепахи в популяции занял бы слишком много времени, вместо этого мы собираем простую случайную выборку из 30 черепах и измеряем их вес:
Затем мы могли бы использовать средний вес этой выборки черепах, чтобы оценить средний вес всех черепах в популяции.
Как рассчитать выборочное среднее
Формула для расчета выборочного среднего значения, часто обозначаемого x , выглядит следующим образом:
х = Σx я /n
Золото:
- Σ: сложный греческий символ, означающий «сумма».
- x i : значение i-го наблюдения в наборе данных.
- n: Размер выборки
Например, предположим, что мы собрали выборку из 10 черепах со следующим весом (в фунтах):
- 70, 80, 80, 85, 90, 95, 110, 120, 140, 150
Среднее выборочное значение будет рассчитываться следующим образом:
- х = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
Почему выборочное среднее является несмещенным
На статистическом жаргоне мы бы сказали, что выборочное среднее является статистикой , а среднее генеральной совокупности — параметром .
Вот разница между этими двумя терминами:
Статистика — это число, которое описывает определенные характеристики выборки.
Параметр — это число, которое описывает характеристику популяции.
Параметр — это значение, которое мы на самом деле хотим измерить, но статистика — это значение, которое мы используем для оценки значения параметра, поскольку статистику получить гораздо проще.
Когда мы используем такой метод, как простая случайная выборка , для получения выборки, мы говорим, что выборочное среднее является несмещенной оценкой генерального среднего значения.
Другими словами, у нас нет оснований полагать, что выборочное среднее будет недооценивать или переоценивать истинное генеральное среднее.
Причина в том, что когда мы используем такой метод, как простая случайная выборка, каждый член совокупности имеет равные шансы быть включенным в выборку, а это означает, что выборка, скорее всего, будет «мини-версией» генеральной совокупности в целом. .
Мы бы сказали, что выборка является репрезентативной для генеральной совокупности , а это означает, что среднее значение выборки должно быть хорошей оценкой среднего значения генеральной совокупности, при условии, что размер выборки достаточно велик.
Об использовании доверительных интервалов с выборочным средним
Хотя выборочное среднее дает несмещенную оценку генерального среднего, оно вряд ли точно соответствует генеральному среднему.
Например, если мы хотим использовать выборку черепах для оценки среднего веса популяции черепах, мы можем выбрать выборку, наполненную черепахами с низким весом, или, возможно, выборку, наполненную тяжелыми черепахами.
Чтобы уловить эту неопределенность вокруг нашей оценки среднего значения совокупности, мы можем создать доверительный интервал .
Доверительный интервал — это диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности.
Например, мы можем собрать выборку из 30 черепах и обнаружить, что средний вес этой выборки составляет 102 фунта. Если мы затем построим доверительный интервал 95%, мы можем обнаружить, что интервал:
95% доверительный интервал = [98,5, 105,5]
Мы бы интерпретировали это так, что существует 95% вероятность того, что доверительный интервал [98,5, 105,5] содержит истинный средний вес популяции черепах.
Этот доверительный интервал более полезен, чем простое выборочное среднее, поскольку он дает нам диапазон значений, в пределах которого, вероятно, находится истинное среднее значение генеральной совокупности.
Дополнительные ресурсы
Население против. образец: в чем разница?
Статистика против. параметры: в чем разница?
Введение в доверительные интервалы