Тест на пригодность
В этой статье объясняется, что такое критерий согласия и для чего он используется в статистике. Здесь также показано, как выполнить тест на подгонку, и, кроме того, вы сможете увидеть пошаговое выполнение упражнения.
Что такое тест на пригодность?
Тест согласия — это статистический тест, который позволяет нам определить, соответствует ли выборка данных определенному распределению вероятностей . Другими словами, тест на адекватность используется для проверки того, соответствуют ли наблюдаемые данные ожидаемым данным.
Часто мы пытаемся сделать прогноз относительно какого-либо явления и в результате получаем ожидаемые значения этого явления, которые, по нашему мнению, произойдут. Однако затем мы должны собрать данные и проверить, соответствуют ли собранные данные нашим ожиданиям. Таким образом, тесты на адекватность позволяют нам решить с помощью статистического критерия, подобны ли ожидаемые данные и наблюдаемые данные или нет.
Таким образом, критерий согласия представляет собой проверку гипотезы , нулевая гипотеза которой состоит в том, что наблюдаемые значения равны ожидаемым значениям, с другой стороны, альтернативная гипотеза теста указывает на то, что наблюдаемые значения статистически различны. от ожидаемых значений.
![Rendered by QuickLaTeX.com \begin{cases}H_0: f(x)=f_o(x)\\[2ex]H_1: f(x)\neq f_o(x)\end{cases}](https://statorials.org/wp-content/ql-cache/quicklatex.com-db79847cd8097a2baca298bf82594f4f_l3.png)
В статистике критерий согласия также известен как критерий хи-квадрат , поскольку эталонным распределением теста является распределение хи-квадрат.
Формула теста на пригодность
Статистика теста согласия равна сумме квадратов разностей между наблюдаемыми значениями и ожидаемыми значениями, разделенными на ожидаемые значения.
Итак, формула теста адекватности выглядит следующим образом:

Золото:
-

— это статистика критерия согласия, которая соответствует распределению хи-квадрат с

степени свободы.
-

— размер выборки данных.
-

— наблюдаемое значение для данных i.
-

— ожидаемое значение для данных i.
Таким образом, учитывая уровень значимости
![]()
, вычисленную статистику теста следует сравнить с критическим значением теста, чтобы определить, отклонять ли нулевую гипотезу или альтернативную гипотезу проверки гипотезы:
- Если статистика теста меньше критического значения

альтернативная гипотеза отклоняется (и принимается нулевая гипотеза).
- Если статистика теста превышает критическое значение

, нулевая гипотеза отклоняется (и принимается альтернативная гипотеза).
Как провести фитнес-тест
Для проведения теста на пригодность необходимо выполнить следующие шаги:
- Сначала мы устанавливаем нулевую гипотезу и альтернативную гипотезу критерия согласия.
- Во-вторых, мы выбираем уровень достоверности и, следовательно, уровень значимости критерия согласия.
- Далее мы вычисляем статистику критерия согласия, формулу для которой можно найти в разделе выше.
- Критическое значение критерия согласия мы находим с помощью таблицы распределения хи-квадрат.
- Сравниваем статистику теста с критическим значением:
- Если статистика теста меньше критического значения, альтернативная гипотеза отклоняется (и принимается нулевая гипотеза).
- Если статистика теста превышает критическое значение, нулевая гипотеза отклоняется (и принимается альтернативная гипотеза).
Пример теста на адекватность
- Владелец магазина говорит, что 50 % ее продаж приходится на продукт А, 35 % — на продукт Б и 15 % — на продукт С. Однако количество проданных единиц каждого продукта показано на рис. следующую таблицу. Проанализируйте, отличаются ли теоретические данные владельца статистически от фактически собранных данных.
| Продукт | Наблюдаемые продажи (O i ) |
|---|---|
| Продукт А | 453 |
| Продукт Б | 268 |
| Продукт С | 79 |
| Общий | 800 |
Чтобы определить, эквивалентны ли наблюдаемые значения ожидаемым значениям, мы проведем тест на соответствие. Нулевая гипотеза и альтернативная гипотеза теста:
![Rendered by QuickLaTeX.com \begin{cases}H_0: f(x)=f_o(x)\\[2ex]H_1: f(x)\neq f_o(x)\end{cases}](https://statorials.org/wp-content/ql-cache/quicklatex.com-db79847cd8097a2baca298bf82594f4f_l3.png)
В этом случае мы будем использовать для теста уровень достоверности 95%, поэтому уровень значимости составит 5%.
![]()
Чтобы найти ожидаемые значения продаж, нам нужно умножить процент ожидаемых продаж каждого продукта на общее количество реализованных продаж:
![Rendered by QuickLaTeX.com \begin{array}{c}E_A=800\cdot 0,50=400\\[2ex]E_B=800\cdot 0,35=280\\[2ex]E_A=800\cdot 0,15=120\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-9daef735efca126bba60ccde38423d7b_l3.png)
Таким образом, таблица частоты проблем выглядит следующим образом:
| Продукт | Наблюдаемые продажи (O i ) | Ожидаемые продажи (E i ) |
|---|---|---|
| Продукт А | 453 | 400 |
| Продукт Б | 268 | 280 |
| Продукт С | 79 | 120 |
| Общий | 800 | 800 |
Теперь, когда мы рассчитали все значения, мы применим формулу теста хи-квадрат для расчета статистики теста:
![Rendered by QuickLaTeX.com \begin{array}{c}\displaystyle\chi^2=\sum_{i=1}^k\frac{(O_i-E_i)^2}{E_i}\\[6ex]\chi^2=\cfrac{(453-400)^2}{400}+\cfrac{(268-280)^2}{280}+\cfrac{(79-120)^2}{120}\\[6ex]\chi^2=7,02+0,51+14,00\\[6ex]\chi^2=21,53\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-8c76621fbe8504217dfe8ac55b2d6e67_l3.png)
После расчета значения статистики теста мы используем таблицу распределения хи-квадрат, чтобы найти критическое значение теста. Распределение хи-квадрат имеет
![]()
степени свободы и уровень значимости
![]()
,Еще:
![Rendered by QuickLaTeX.com \begin{array}{c}\chi^2_{1-\alpha|k-1}=\ \color{orange}\bm{?}\color{black}\\[4ex]\chi^2_{0,95|2}=5,991\end{array}](https://statorials.org/wp-content/ql-cache/quicklatex.com-1850e764fc71b1e7b49b0c4d8133ab89_l3.png)
Таким образом, статистика теста (21,53) превышает критическое значение теста (5,991), поэтому нулевая гипотеза отклоняется и принимается альтернативная гипотеза. Это значит, что данные очень разные и поэтому владелец магазина ожидал других продаж, чем реально сделал.
Об авторе
бенджамин андерсон
Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше