Четыре гипотезы, сформулированные в т-тесте


Двухвыборочный t-критерий используется для проверки того, равны ли средние значения двух совокупностей или нет.

Этот тип теста делает следующие предположения относительно данных:

1. Независимость: наблюдения одной выборки независимы от наблюдений другой выборки.

2. Нормальность: обе выборки имеют примерно нормальное распределение.

3. Однородность дисперсий: обе выборки имеют примерно одинаковую дисперсию.

4. Случайная выборка: Обе выборки были получены методом случайной выборки.

Если одно или несколько из этих предположений нарушаются, результаты двухвыборочного t-критерия могут быть ненадежными или даже вводящими в заблуждение.

В этом руководстве мы даем объяснение каждому предположению, как определить, выполняется ли предположение и что делать, если оно нарушается.

Гипотеза 1: Независимость

Двухвыборочный t-критерий предполагает, что наблюдения из одной выборки независимы от наблюдений из другой выборки.

Это важнейшее предположение, поскольку если одни и те же люди присутствуют в обеих выборках, то делать выводы о различиях между выборками невозможно.

Как проверить эту гипотезу

Самый простой способ проверить это предположение — убедиться, что каждое наблюдение появляется в каждой выборке только один раз и что наблюдения в каждой выборке были собраны методом случайной выборки.

Что делать, если это предположение не соблюдается

Если это предположение не выполняется, результаты t-теста для двух выборок совершенно недействительны. В этом сценарии лучше всего собрать две новые выборки, используя метод случайной выборки, и убедиться, что каждый человек в одной выборке не принадлежит к другой выборке.

Гипотеза 2: нормальность

Двухвыборочный t-критерий предполагает, что две выборки примерно нормально распределены.

Это важнейшее предположение, поскольку, если выборки не распределены нормально, недопустимо использовать значения p из теста для того, чтобы делать выводы о различиях между выборками.

Как проверить эту гипотезу

Если размеры выборки невелики (n < 50), мы можем использовать тест Шапиро-Уилка, чтобы определить, нормально ли распределяется каждый размер выборки. Если значение p теста ниже определенного уровня значимости, данные, вероятно, не распределены нормально.

Если размеры выборки большие, лучше использовать график QQ , чтобы визуально проверить, нормально ли распределены данные.

Если точки данных лежат примерно вдоль прямой диагональной линии на графике QQ, то набор данных, вероятно, соответствует нормальному распределению.

Что делать, если это предположение не соблюдается

Если это предположение нарушается, мы можем выполнить U-критерий Манна-Уитни , который считается непараметрическим эквивалентом двухвыборочного t-критерия и не предполагает, что две выборки имеют нормальное распределение.

Гипотеза 3: Однородность различий

Двухвыборочный t-критерий предполагает, что две выборки имеют примерно равные дисперсии.

Как проверить эту гипотезу

Мы используем следующее эмпирическое правило, чтобы определить, равны ли дисперсии между двумя выборками: если отношение наибольшей дисперсии к наименьшей дисперсии меньше 4, то мы можем предположить, что дисперсии примерно равны, и использовать обе выборки t -тест.

Например, предположим, что дисперсия образца 1 составляет 24,5, а дисперсия образца 2 — 15,2. Отношение наибольшей выборочной дисперсии к наименьшей выборочной дисперсии будет рассчитываться следующим образом:

Соотношение: 24,5/15,2 = 1,61

Поскольку это соотношение меньше 4, можно предположить, что различия между двумя группами примерно равны.

Что делать, если это предположение не соблюдается

Если это предположение нарушается, мы можем выполнить t-критерий Уэлча , который является непараметрической версией двухвыборочного t-критерия и не предполагает, что две выборки имеют равные дисперсии.

Предположение 4: Случайная выборка

Двухвыборочный t-критерий предполагает, что обе выборки были получены методом случайной выборки.

Как проверить эту гипотезу

Не существует формального статистического теста, который мы могли бы использовать для проверки этой гипотезы. Вместо этого нам просто нужно убедиться, что обе выборки были получены с использованием метода случайной выборки, так что каждый человек в интересующей популяции имеет равную вероятность быть включенным в ту или иную выборку.

Что делать, если это предположение не соблюдается

Если это предположение не выполняется, то маловероятно, что наши две выборки являются репрезентативными для интересующей совокупности. В этом случае мы не можем надежно обобщить результаты двухвыборочного t-критерия на всю совокупность .

В этом случае лучше всего собрать две новые выборки методом случайной выборки.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *