Що таке припущення незалежності в статистиці?
Багато статистичних тестів припускають, що спостереження є незалежними. Це означає, що жодні спостереження в наборі даних не пов’язані одне з одним і жодним чином не впливають одне на одного.
Наприклад, скажімо, ми хочемо перевірити, чи є різниця в середній вазі між двома видами котів. Якби ми виміряли вагу 10 котів виду А та 10 котів виду В, ми порушили б припущення про незалежність, якби кожна з груп котів походила з одного посліду.
Цілком можливо, що у кішки-матері виду A просто були кошенята з низькою вагою, тоді як у кішки-матері виду B були важкі кошенята. У зв’язку з цим спостереження кожного зразка не є незалежними один від одного.
Існує три поширених типи статистичних тестів, які роблять це припущення незалежності:
2. ANOVA (Дисперсійний аналіз)
У наступних розділах ми пояснюємо, чому це припущення робиться для кожного типу тесту, а також як визначити, чи виконується це припущення.
Припущення незалежності в t-тестах
Двовибірковий t-критерій використовується, щоб перевірити, чи рівні середні дві сукупності чи ні.
Припущення: цей тип тесту припускає, що спостереження в межах кожного зразка незалежні одне від одного і що спостереження між зразками також незалежні одне від одного.
Перевірте цю гіпотезу: найпростіший спосіб перевірити цю гіпотезу — перевірити, що кожне спостереження з’являється лише один раз у кожній вибірці та що спостереження в кожній вибірці були зібрані шляхом випадкової вибірки.
Припущення незалежності в ANOVA
Дисперсійний аналіз ANOVA використовується для визначення того, чи існує значна різниця між середніми значеннями трьох або більше незалежних груп.
Припущення: дисперсійний аналіз припускає, що спостереження в кожній групі не залежать одне від одного і що спостереження в групах були отримані за допомогою випадкової вибірки.
Перевірте цю гіпотезу: подібно до t-критерію, найпростіший спосіб перевірити цю гіпотезу полягає в тому, щоб перевірити, що кожне спостереження з’являється лише один раз у кожній вибірці та що спостереження в кожній вибірці були зібрані шляхом випадкової вибірки.
Незалежність у припущеній регресії
Лінійна регресія використовується для розуміння зв’язку між однією або декількома змінними прогнозу та змінною відповіді .
Припущення: лінійна регресія передбачає, що залишки підігнаної моделі незалежні.
Перевірте цю гіпотезу. Найпростіший спосіб перевірити цю гіпотезу — подивитися на графік часових рядів залишків, який є графіком залежності залишків від часу. В ідеалі більшість залишкових автокореляцій повинні знаходитися в межах 95% довірчих діапазонів навколо нуля, які розташовані приблизно +/- 2 від квадратного кореня з n , де n – розмір вибірки. Ви також можете формально перевірити, чи виконується це припущення, використовуючи тест Дарбіна-Ватсона .
Загальні джерела незалежності
Є три поширені джерела незалежності в наборах даних:
1. Спостереження замкнуті разом у часі.
Наприклад, дослідник може зібрати дані про середню швидкість автомобілів на певній дорозі. Якщо він вирішить стежити за швидкістю ввечері, він може виявити, що середня швидкість набагато вища, ніж він очікував, просто тому, що кожен водій поспішає додому з роботи.
Ці дані порушують припущення, що кожне спостереження є незалежним. Оскільки кожне спостереження спостерігалося в один і той же час доби, швидкість кожного автомобіля, ймовірно, буде однаковою.
2. Спостереження замкнуті разом у просторі.
Наприклад, дослідник може збирати річні дані про доходи людей, які живуть в одному районі з високим рівнем доходу, оскільки це зручно.
У зв’язку з цим усі люди, включені у вибірку даних, ймовірно, матимуть однакові доходи, оскільки всі вони живуть неподалік один від одного. Це порушує припущення, що кожне спостереження є незалежним.
3. Спостереження з’являються кілька разів в одному наборі даних.
Наприклад, досліднику може знадобитися зібрати дані про 50 осіб, але замість цього він вирішує зібрати дані про 25 осіб двічі, оскільки це набагато легше зробити.
Це порушує припущення про незалежність, оскільки кожне спостереження в наборі даних буде пов’язане з самим собою.
Як уникнути порушення припущення про незалежність
Найпростіший спосіб уникнути порушення припущення про незалежність – це просто використовувати просту випадкову вибірку під час отримання вибірки з сукупності.
За допомогою цього методу кожна особа в популяції , що цікавить, має рівні шанси потрапити до вибірки.
Наприклад, якщо популяція, яка нас цікавить, містить 10 000 осіб, ми можемо випадковим чином призначити номер кожній особині в популяції, а потім використовувати генератор випадкових чисел, щоб вибрати 40 випадкових чисел. Особи, які відповідають цим цифрам, будуть включені до вибірки.
Використовуючи цей метод, ми зводимо до мінімуму ймовірність вибору двох людей, які можуть бути дуже близькими один одному або якісь певним чином пов’язані.
Це прямо контрастує з іншими методами вибірки, такими як:
- Зручність вибірки: включення до вибірки людей, до яких легко дістатися.
- Добровільна вибірка: включення до вибірки осіб, які добровільно погодилися бути включеними.
Використовуючи метод випадкової вибірки, ми можемо мінімізувати ймовірність порушення припущення незалежності.
Додаткові ресурси
Чотири гіпотези, сформульовані в тесті T
Чотири припущення лінійної регресії
Три гіпотези ANOVA
Що таке репрезентативна вибірка і чому вона важлива?