Jakie jest założenie niezależności w statystyce?
Wiele testów statystycznych zakłada, że obserwacje są niezależne. Oznacza to, że żadne obserwacje w zbiorze danych nie są ze sobą powiązane ani w żaden sposób na siebie nie wpływają.
Załóżmy na przykład, że chcemy sprawdzić, czy istnieje różnica w średniej wadze między dwoma gatunkami kotów. Gdybyśmy zmierzyli masę 10 kotów gatunku A i 10 kotów gatunku B, naruszylibyśmy założenie o niezależności, gdyby każda z grup kotów pochodziła z tego samego miotu.
Jest możliwe, że kotka-matka z gatunku A miała po prostu wszystkie kocięta o niskiej wadze, podczas gdy kot-matka z gatunku B miała kocięta ciężkie. Pod tym względem obserwacje każdej próbki nie są od siebie niezależne.
Istnieją trzy popularne typy testów statystycznych, które przyjmują to założenie o niezależności:
W poniższych sekcjach wyjaśniamy, dlaczego przyjmuje się to założenie dla każdego rodzaju testu, a także jak ustalić, czy to założenie jest spełnione.
Założenie niezależności w testach t
Test t dla dwóch prób służy do sprawdzenia, czy średnie z dwóch populacji są równe, czy nie.
Założenie: Ten typ testu zakłada, że obserwacje w obrębie każdej próbki są od siebie niezależne oraz że obserwacje pomiędzy próbkami są również od siebie niezależne.
Sprawdź tę hipotezę: Najprostszym sposobem sprawdzenia tej hipotezy jest sprawdzenie, czy każda obserwacja pojawia się tylko raz w każdej próbie i czy obserwacje w każdej próbie zostały zebrane w drodze losowego pobierania próbek.
Założenie niezależności w ANOVA
ANOVA służy do określenia, czy istnieje znacząca różnica między średnimi trzech lub większej liczby niezależnych grup.
Założenie: Analiza ANOVA zakłada, że obserwacje w każdej grupie są od siebie niezależne i że obserwacje w obrębie grup uzyskano na podstawie próby losowej.
Sprawdź tę hipotezę: Podobnie jak w przypadku testu t, najprostszym sposobem sprawdzenia tej hipotezy jest sprawdzenie, czy każda obserwacja pojawia się tylko raz w każdej próbie i czy obserwacje w każdej próbie zostały zebrane w drodze losowego pobierania próbek.
Niezależność w zakładanej regresji
Regresję liniową stosuje się do zrozumienia związku pomiędzy jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Założenie: Regresja liniowa zakłada, że reszty dopasowanego modelu są niezależne.
Sprawdź tę hipotezę: Najprostszym sposobem sprawdzenia tej hipotezy jest spojrzenie na wykres reszt szeregów czasowych, który jest wykresem reszt w funkcji czasu. W idealnym przypadku większość autokorelacji resztowych powinna mieścić się w 95% przedziałach ufności wokół zera, które znajdują się w przybliżeniu +/- 2 z pierwiastka kwadratowego z n , gdzie n jest wielkością próby. Można także formalnie sprawdzić, czy założenie to jest spełnione, korzystając z testu Durbina-Watsona .
Wspólne źródła niepodległości
Istnieją trzy typowe źródła braku niezależności w zbiorach danych:
1. Obserwacje są zamknięte w czasie.
Na przykład badacz może zbierać dane na temat średniej prędkości samochodów na określonej drodze. Jeśli zdecyduje się na śledzenie prędkości wieczorem, może odkryć, że średnia prędkość jest znacznie wyższa, niż się spodziewał, po prostu dlatego, że wszyscy kierowcy spieszą się z pracy do domu.
Dane te naruszają założenie, że każda obserwacja jest niezależna. Ponieważ każdą obserwację obserwowano o tej samej porze dnia, prędkość każdego samochodu będzie prawdopodobnie podobna.
2. Obserwacje są zamknięte w przestrzeni.
Na przykład badacz może zebrać dane dotyczące rocznych dochodów osób, które mieszkają w tej samej zamożnej dzielnicy, ponieważ jest to wygodne.
Pod tym względem wszystkie osoby uwzględnione w próbie danych prawdopodobnie będą miały podobne dochody, ponieważ wszyscy mieszkają blisko siebie. Narusza to założenie, że każda obserwacja jest niezależna.
3. Obserwacje pojawiają się wielokrotnie w tym samym zbiorze danych.
Na przykład badacz może potrzebować zebrać dane na temat 50 osób, ale zamiast tego decyduje się na dwukrotne zebranie danych na temat 25 osób, ponieważ jest to znacznie łatwiejsze.
Narusza to założenie niezależności, ponieważ każda obserwacja w zbiorze danych będzie powiązana ze sobą.
Jak uniknąć naruszenia założenia niezależności
Najprostszym sposobem na uniknięcie naruszenia założenia o niezależności jest po prostu zastosowanie prostego doboru losowego podczas uzyskiwania próbki z populacji.
Dzięki tej metodzie każda osoba w populacji będącej przedmiotem zainteresowania ma równe szanse na włączenie do próby.
Na przykład, jeśli nasza populacja będąca przedmiotem zainteresowania składa się z 10 000 osobników, możemy losowo przypisać liczbę każdemu osobnikowi w populacji, a następnie użyć generatora liczb losowych, aby wybrać 40 liczb losowych. Osoby pasujące do tych liczb zostaną następnie włączone do próby.
Stosując tę metodę minimalizujemy ryzyko wybrania dwóch osób, które mogą być bardzo blisko siebie lub być w jakiś sposób powiązane.
Stanowi to bezpośredni kontrast w stosunku do innych metod pobierania próbek, takich jak:
- Próbkowanie dogodne: włączenie do próby osób, do których po prostu łatwo dotrzeć.
- Dobrowolne pobieranie próbek: włączenie do próby osób, które zgłosiły się dobrowolnie do włączenia.
Stosując metodę losowego doboru próby, możemy zminimalizować ryzyko naruszenia założenia o niezależności.
Dodatkowe zasoby
Cztery hipotezy sformułowane w teście T
Cztery założenia regresji liniowej
Trzy hipotezy ANOVA
Co to jest próbka reprezentatywna i dlaczego jest ważna?