Перевірка гіпотези на різницю в середніх

У цій статті пояснюється, що таке перевірка гіпотези різниці середніх у статистиці та для чого вона використовується. Крім того, ви дізнаєтесь, як виконати перевірку гіпотези щодо різниці середніх значень і покроково розв’язану вправу.

Що таке перевірка гіпотези для середньої різниці?

Перевірка гіпотези на різницю середніх значень — це статистичний тест, який використовується для відхилення або прийняття гіпотези про те, що середні значення двох сукупностей різні. Тобто перевірка гіпотези різниці в середніх значеннях використовується для визначення того, чи є середні значення двох популяцій однаковими чи різними.

Майте на увазі, що рішення, прийняті під час перевірки гіпотези, ґрунтуються на попередньо встановленому рівні достовірності , тому не можна гарантувати, що результат перевірки гіпотези завжди буде правильним, а радше те, що це найімовірніший результат, який є істинним.

Перевірка гіпотези на різницю двох середніх включає обчислення тестової статистики та порівняння її з критичним значенням, щоб відхилити нульову гіпотезу чи ні. Нижче ми побачимо, як виконати перевірку гіпотези на різницю середніх.

Зрештою, пам’ятайте, що в статистиці перевірка гіпотез також може називатися протиставленням гіпотез, перевіркою гіпотез або перевіркою значущості.

Формула перевірки гіпотез для різниці середніх

Формула, яку слід використовувати для перевірки гіпотез про різницю в середніх значеннях, змінюється залежно від того, чи відомі дисперсії сукупності, і, якщо ні, чи можна припустити, що вони однакові чи різні. Отже, у цьому розділі ми побачимо, яку формулу використовувати залежно від випадку.

Відомі варіації

Формула для розрахунку статистики перевірки гіпотези для різниці середніх значень, коли дисперсії відомі, така:

\displaystyle Z=\frac{\displaystyle (\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}

золото:

  • Z

    це статистика перевірки гіпотези для різниці двох середніх значень з відомою дисперсією, яка відповідає стандартному нормальному розподілу.

  • \mu_1

    це середнє значення сукупності 1.

  • \mu_2

    це середнє значення сукупності 2.

  • \overline{x_1}

    є середнім значенням зразка 1.

  • \overline{x_2}

    є середнім значенням зразка 2.

  • \sigma_1

    є стандартним відхиленням сукупності 1.

  • \sigma_2

    є стандартним відхиленням сукупності 2.

  • n_1

    розмір вибірки 1.

  • n_2

    розмір вибірки 2.

Майте на увазі, що це найменш поширений випадок, тому ця формула використовується лише в окремих випадках.

Невідомі та рівні відхилення

Формула для розрахунку статистики перевірки гіпотези для різниці середніх значень, коли дисперсії генеральної сукупності невідомі, але вважаються рівними :

\displaystyle t=\frac{\displaystyle (\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}

золото:

  • t

    це статистика перевірки гіпотези для різниці середніх значень з невідомими дисперсіями, яка відповідає t-розподілу Стьюдента з n 1 + n 2 -2 ступенями свободи.

  • \mu_1

    це середнє значення сукупності 1.

  • \mu_2

    це середнє значення сукупності 2.

  • \overline{x_1}

    є середнім значенням зразка 1.

  • \overline{x_2}

    є середнім значенням зразка 2.

  • s_p

    є комбінованим стандартним відхиленням.

  • n_1

    розмір вибірки 1.

  • n_2

    розмір вибірки 2.

Сукупне стандартне відхилення двох зразків обчислюється за такою формулою:

\displaystyle s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}

Невідомі та різні варіації

Коли дисперсії генеральної сукупності невідомі і, крім того, вони вважаються різними, формула для розрахунку статистики перевірки гіпотези для різниці середніх має такий вигляд:

\displaystyle t=\frac{\displaystyle (\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle \sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}

золото:

  • t

    це статистика перевірки гіпотези для різниці середніх значень з невідомими дисперсіями, яка відповідає t-розподілу Стьюдента.

  • \mu_1

    це середнє значення сукупності 1.

  • \mu_2

    це середнє значення сукупності 2.

  • \overline{x_1}

    є середнім значенням зразка 1.

  • \overline{x_2}

    є середнім значенням зразка 2.

  • \sigma_1

    є стандартним відхиленням сукупності 1.

  • \sigma_2

    є стандартним відхиленням сукупності 2.

  • n_1

    розмір вибірки 1.

  • n_2

    розмір вибірки 2.

Однак у цьому випадку ступені вільності t-розподілу Стьюдента розраховуються за такою формулою:

\displaystyle GL=\frac{\displaystyle\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\displaystyle\frac{\displaystyle\frac{s_1^2}{n_1}}{n_1-1}+\frac{\displaystyle\frac{s_2^2}{n_2}}{n_2-1}}

Конкретний приклад перевірки гіпотези на різницю середніх

Щоб закінчити засвоєння концепції перевірки гіпотези на основі різниці в середніх, ми розглянемо конкретний приклад цього типу перевірки гіпотези.

  • Ви хочете провести статистичне дослідження заробітної плати двох конкуруючих компаній, точніше, ви хочете визначити, чи відрізняється середня заробітна плата в двох компаніях. Для цього береться вибірка з 47 працівників з однієї компанії та ще одна вибірка з 55 працівників з іншої компанії. З першої вибірки отримано середню зарплату 40 000 доларів США та стандартне відхилення 12 000 доларів США, а з другої вибірки – середню зарплату 46 000 доларів США та стандартне відхилення 18 000 доларів США. Виконайте перевірку гіпотези з рівнем значущості 5%, щоб визначити, чи відрізняються середні зарплати чи ні.

У цьому випадку нульова гіпотеза та альтернативна гіпотеза перевірки гіпотези на різницю двох середніх є такими:

\begin{cases}H_0: \mu_1-\mu_2=0\\[2ex] H_1:\mu_1-\mu_2\neq 0 \end{cases}

У цьому випадку розриви населення невідомі, але можна припустити, що вони рівні, оскільки це конкуруючі компанії, а умови роботи на ринку, на якому вони працюють, дуже схожі. Таким чином, формула для статистики перевірки гіпотези для різниці середніх, яку ми повинні використовувати, така:

\displaystyle t=\frac{\displaystyle (\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}

Тому ми обчислюємо об’єднане стандартне відхилення двох вибірок:

\begin{aligned}\displaystyle s_p&=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}\\[2ex]\displaystyle s_p&=\sqrt{\frac{(47-1)\cdot 12000^2+(55-1)\cdot 18000^2}{47+55-2}}\\[2ex]s_p&=15530,61\end{aligned}

Тепер ми застосуємо формулу перевірки гіпотези для різниці середніх:

\displaystyle t=\frac{\displaystyle (\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\displaystyle s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}=\cfrac{(40000-46000)-0}{\displaystyle 15530,61\sqrt{\frac{1}{47}+\frac{1}{55}}}=-1,94

З іншого боку, ми шукаємо критичне значення перевірки гіпотези для різниці середніх у таблиці t Стьюдента :

\alpha=0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \alpha/2=0,025

\begin{array}{c}t_{\alpha/2| n_1+n_2-2}= \ \color{orange}\bm{?}\\[4ex]t_{0,025| 100}=1,984\end{array}

Тоді, оскільки абсолютне значення тестової статистики менше критичного тестового значення, нульова гіпотеза приймається, а альтернативна гіпотеза відхиляється.

|-1,94|=1,94<1,984 \ \color{orange}\bm{\longrightarrow}\color{black} \ \text{Se rechaza } H_1

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *