İstatistikte bağımsızlık varsayımı nedir?
Birçok istatistiksel test, gözlemlerin bağımsız olduğunu varsayar. Bu, bir veri setindeki hiçbir gözlemin birbiriyle ilişkili olmadığı veya herhangi bir şekilde birbirini etkilemediği anlamına gelir.
Örneğin iki kedi türü arasında ortalama ağırlık farkı olup olmadığını test etmek istediğimizi varsayalım. A türünden 10 kedinin ve B türünden 10 kedinin ağırlığını ölçseydik, kedi gruplarının her birinin aynı çöpten gelmesi durumunda bağımsızlık varsayımını ihlal etmiş olurduk.
A Türünün ana kedisinin tamamen düşük kilolu yavrulara sahip olması, B Türünün ana kedisinin ise ağır yavrulara sahip olması mümkündür. Bu bakımdan her bir numunenin gözlemleri birbirinden bağımsız değildir.
Bu bağımsızlık varsayımını yapan üç yaygın istatistiksel test türü vardır:
Aşağıdaki bölümlerde bu varsayımın neden her bir test türü için yapıldığını ve bu varsayımın karşılanıp karşılanmadığının nasıl belirleneceğini açıklayacağız.
T-testlerinde bağımsızlık varsayımı
İki örneklem t testi, iki popülasyonun ortalamalarının eşit olup olmadığını test etmek için kullanılır.
Varsayım: Bu test türü, her bir numune içindeki gözlemlerin birbirinden bağımsız olduğunu ve numuneler arasındaki gözlemlerin de birbirinden bağımsız olduğunu varsayar.
Bu hipotezi test edin: Bu hipotezi test etmenin en basit yolu, her gözlemin her örnekte yalnızca bir kez göründüğünü ve her örnekteki gözlemlerin rastgele örneklemeyle toplandığını doğrulamaktır.
ANOVA’da bağımsızlık varsayımı
ANOVA, üç veya daha fazla bağımsız grubun ortalamaları arasında anlamlı bir fark olup olmadığını belirlemek için kullanılır.
Varsayım: ANOVA, her gruptaki gözlemlerin birbirinden bağımsız olduğunu ve gruplar içindeki gözlemlerin rastgele bir örnekle elde edildiğini varsayar.
Bu hipotezi test edin: T testine benzer şekilde, bu hipotezi test etmenin en basit yolu, her gözlemin her örnekte yalnızca bir kez göründüğünü ve her örnekteki gözlemlerin rastgele örneklemeyle toplandığını doğrulamaktır.
Varsayılan regresyonda bağımsızlık
Doğrusal regresyon, bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi anlamak için kullanılır.
Varsayım: Doğrusal regresyon, takılan modelin artıklarının bağımsız olduğunu varsayar.
Bu hipotezi test edin: Bu hipotezi test etmenin en kolay yolu, artıkların zamana karşı grafiği olan, artıkların zaman serisi grafiğine bakmaktır. İdeal olarak, artık otokorelasyonların çoğu, n’nin örnek boyutu olduğu n’nin karekökünde yaklaşık olarak +/- 2’de yer alan sıfır çevresindeki %95 güven bantları içerisine düşmelidir. Ayrıca Durbin-Watson testini kullanarak bu varsayımın karşılanıp karşılanmadığını resmi olarak test edebilirsiniz.
Bağımsız Olmamanın Ortak Kaynakları
Veri kümelerinde bağımsız olmamanın üç yaygın kaynağı vardır:
1. Gözlemler zamanla birlikte kapatılır.
Örneğin bir araştırmacı, arabaların belirli bir yoldaki ortalama hızına ilişkin veri toplayabilir. Akşamları hızları takip etmeyi seçerse, ortalama hızın beklediğinden çok daha yüksek olduğunu görebilir çünkü her sürücü işten eve koşuyor.
Bu veriler her gözlemin bağımsız olduğu varsayımını ihlal etmektedir. Her gözlem günün aynı saatinde gözlemlendiğinden, her arabanın hızının benzer olması muhtemeldir.
2. Gözlemler uzayda birbirine kapalıdır.
Örneğin bir araştırmacı, uygun olduğu için aynı yüksek gelirli mahallede yaşayan insanlardan yıllık gelir verilerini toplayabilir.
Bu bağlamda, veri örneğine dahil edilen kişilerin hepsi birbirine yakın yaşadıkları için benzer gelirlere sahip olmaları muhtemeldir. Bu, her gözlemin bağımsız olduğu varsayımını ihlal etmektedir.
3. Gözlemler aynı veri kümesinde birden çok kez görünür.
Örneğin, bir araştırmacının 50 kişi hakkında veri toplaması gerekebilir, ancak bunu yapmak çok daha kolay olduğu için bunun yerine 25 kişi hakkında iki kez veri toplamaya karar verebilir.
Bu durum bağımsızlık varsayımını ihlal etmektedir çünkü veri setindeki her gözlem kendisiyle ilişkili olacaktır.
Bağımsızlık varsayımının ihlal edilmesinden nasıl kaçınılır?
Bağımsızlık varsayımını ihlal etmekten kaçınmanın en basit yolu, bir popülasyondan örnek alırken basit rastgele örnekleme kullanmaktır.
Bu yöntemi kullanarak, ilgilenilen popülasyondaki her bireyin örneğe dahil olma şansı eşit olur.
Örneğin, ilgilendiğimiz popülasyon 10.000 birey içeriyorsa, popülasyondaki her bireye rastgele bir sayı atayabilir ve ardından 40 rastgele sayı seçmek için bir rastgele sayı üreteci kullanabiliriz. Bu sayılara uyan bireyler daha sonra numuneye dahil edilecektir.
Bu yöntemi kullanarak birbirine çok yakın olabilecek veya bir şekilde akraba olabilecek iki kişiyi seçme şansını en aza indiriyoruz.
Bu, aşağıdaki gibi diğer örnekleme yöntemlerinin tam tersidir:
- Kolayda örnekleme: Ulaşılması kolay olan bireylerin örnekleme dahil edilmesi.
- Gönüllü örnekleme: Örneklemeye dahil edilmeye gönüllü olan bireylerin dahil edilmesi.
Rastgele örnekleme yöntemi kullanarak bağımsızlık varsayımının ihlal edilme olasılığını en aza indirebiliriz.
Ek kaynaklar
T testinde formüle edilen dört hipotez
Doğrusal regresyonun dört varsayımı
ANOVA’nın üç hipotezi
Temsili örnek nedir ve neden önemlidir?