İstatistikte etkili bir gözlem nedir?


İstatistikte etkili bir gözlem , bir veri setindeki, kaldırıldığında bir regresyon modelinin katsayı tahminlerini önemli ölçüde değiştiren bir gözlemdir.

Gözlemlerin etkisini ölçmenin en yaygın yolu, i’inci gözlem kaldırıldığında bir regresyon modelindeki tüm uygun değerlerin ne kadar değiştiğini ölçen Cook mesafesini kullanmaktır.

Genel olarak Cook mesafesi 1’den büyük olan herhangi bir gözlem, yüksek kaldıraçlı bir gözlem olarak kabul edilir.

Aşağıdaki örnek, potansiyel etkili gözlemleri tespit etmek amacıyla belirli bir veri kümesi için Cook mesafesinin nasıl hesaplanacağını ve yorumlanacağını gösterir.

Örnek: Etkili gözlemlerin tespiti

14 değere sahip aşağıdaki veri setine sahip olduğumuzu varsayalım:

Şimdi basit bir doğrusal regresyon modeline uyduğumuzu varsayalım. Regresyon sonucu aşağıda sunulmaktadır:

İstatistiksel yazılım kullanarak her gözlem için Cook mesafesine ilişkin aşağıdaki değerleri hesaplayabiliriz:

Son gözlemin Cook’un mesafesi için 1’den önemli ölçüde daha büyük bir değere sahip olduğunu unutmayın; bu da bize bunun etkili bir gözlem olduğunu söyler.

Bu değeri veri kümesinden çıkardığımızı ve yeni bir basit doğrusal regresyon modeline uyduğumuzu varsayalım. Bu modelin çıktısı aşağıda gösterilmektedir:

Hem kesme hem de x için regresyon katsayılarının önemli ölçüde değiştiğine dikkat edin. Bu bize, etkili gözlemin veri kümesinden çıkarılmasının, uygun regresyon modelini tamamen değiştirdiğini söyler.

Aşağıdaki grafikler bu iki uygun regresyon denklemi arasındaki farkı göstermektedir:

Tek etkili gözlemin regresyon çizgisini ne kadar değiştirdiğine dikkat edin. Bu gözlemi kaldırarak verilere çok daha yakından uyan bir regresyon çizgisi bulmayı başardık.

Yorumlar

Potansiyel olarak etkili gözlemleri tanımlamak için Cook mesafesinin kullanılması gerektiğine dikkat etmek önemlidir. Ancak bir gözlemin etkili olması onun mutlaka veri kümesinden çıkarılması gerektiği anlamına gelmez.

Öncelikle gözlemin bir veri girişi hatasının veya başka bir garip olayın sonucu olmadığını doğrulamanız gerekir. Meşru bir değer olduğu ortaya çıkarsa, bunu aşağıdaki yollardan biriyle ele almaya karar verebilirsiniz:

  • Veri kümesinden kaldırın.
  • Veri kümesinde bırakın.
  • Bunu ortalama veya medyan gibi alternatif bir değerle değiştirin.

Özel senaryonuza bağlı olarak bu seçeneklerden biri diğerlerinden daha anlamlı olabilir.

Pratikte aşçının mesafesi nasıl hesaplanır?

Aşağıdaki eğitimlerde Python ve R’de belirli bir veri kümesi için Cook mesafesinin nasıl hesaplanacağı açıklanmaktadır:

Python’da Cook’un Mesafesi Nasıl Hesaplanır?
R’de Cook’un mesafesi nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir