Tam kılavuz: verilerdeki aykırı değerler ne zaman kaldırılmalı


Aykırı değer , bir veri kümesindeki diğer değerlerden anormal derecede uzak olan bir gözlemdir .

Aykırı değerler sorunlu olabilir çünkü analizin sonuçlarını etkileyebilirler.

Ancak anormal vakaları veya nadir özelliklere sahip bireyleri ortaya çıkarabildikleri için, incelediğiniz verilere ilişkin içgörü de sağlayabilirler.

Herhangi bir analizde aykırı değerlerin kaldırılıp kaldırılmayacağına veya tutulacağına karar vermelisiniz.

Neyse ki karar vermenize yardımcı olması için aşağıdaki akış şemasını kullanabilirsiniz:

Verilerdeki aykırı değerlerin kaldırılıp kaldırılmayacağına karar vermek için akış şeması

Akış şemasındaki her soruya daha yakından bakalım.

Aykırı değer bir veri girişi hatasının sonucu mu?

Bazen bir veri kümesindeki aykırı değerler yalnızca veri girişi hatasının sonucudur.

Örneğin, bir biyoloğun belirli bir bitki türünün boyu hakkında veri topladığını ve aşağıdaki verileri kaydettiğini varsayalım:

  • 6,83 inç
  • 7,51 inç
  • 5,21 inç
  • 5,84 inç
  • 7,83 inç
  • 755 inç
  • 6,53 inç
  • 6,31 inç
  • 5,91 inç

Açıkçası 755 inçlik giriş bir aykırı değerdir ve muhtemelen bir veri girişi hatasının sonucudur. Büyük olasılıkla yüksekliğin 7,55 inç olması gerekiyordu, ancak yanlış girildi.

Biyolog bu gözlemi sürdürür ve örnekteki bitkilerin ortalama boyu gibi tanımlayıcı bir istatistik hesaplarsa, bu gözlem sonuçları büyük ölçüde çarpıtacak ve gerçek ortalama bitki boyuna ilişkin hatalı bir tablo verecektir.

Bu senaryoda (ve buna benzer senaryolarda), bu aykırı değerin veri kümesinden kaldırılması mantıklıdır çünkü bu bir hatadır ve analize dahil edilecek meşru bir veri noktası değildir.

Aykırı değer analiz sonuçlarını önemli ölçüde etkiler mi?

Eğer bir gözlem gerçek bir aykırı değerse ve yalnızca veri girişi hatasının sonucu değilse, o zaman aykırı değerin analiz sonuçlarını etkileyip etkilemediğini incelememiz gerekir.

Örneğin, bir biyoloğun gübre ile bitki boyu arasındaki ilişkiyi araştırdığını varsayalım. Tahmin değişkeni olarak gübreyi ve tepki değişkeni olarak bitki boyunu kullanarak basit bir doğrusal regresyon modeli kurmak istiyor.

12 farklı fabrika için aşağıdaki verileri toplar:

Son gözlemin sapkın olduğu açıktır.

Ancak bu veri setini görselleştirmek için bir dağılım grafiği oluşturursak, aykırı değeri dahil etsek de etmesek de regresyon çizgisinin pek değişmeyeceğini görebiliriz:

Bu senaryoda, aykırı değer aslındadoğrusal regresyon modelinin varsayımlarından herhangi birini ihlal etmez, dolayısıyla onu veri kümesinde tutabiliriz.

Ancak verilerde aşağıdaki aykırı değerin bulunduğunu varsayalım:

Açıkçası, bu aykırı değer regresyon çizgisini önemli ölçüde etkiler, bu nedenle bir regresyon modelini aykırı değerle ve diğerini aykırı değerle eşleştirebilir ve ardından her iki regresyon modelinin sonuçlarını rapor edebiliriz.

Aykırı değer analizde yapılan varsayımları etkiliyor mu?

Eğer aykırı değer bir veri giriş hatasının sonucu değilse ve analizin sonuçlarını önemli ölçüde etkilemiyorsa, aykırı değerin analizde oluşturulan hipotezleri etkileyip etkilemediğini sormamız gerekir. analiz.

Eğer varsayımları etkilemiyorsa, onu verilerde tutabiliriz.

Ancak bu durum varsayımları etkiliyorsa birkaç seçeneğimiz var:

1. Kaldırın. Bunu verilerden çıkarabilir ve sonuçları rapor ederken not edebiliriz.

2. Veriler üzerinde bir dönüşüm gerçekleştirin. Aykırı değerleri kaldırmak yerine veriler üzerinde bir dönüşüm gerçekleştirmeyi deneyebiliriz; örneğin verideki tüm değerlerin karekökünü veya logunu almayı deneyebiliriz. Bunun aykırı değerleri azalttığı ve çoğu zaman verilerin daha normal şekilde dağılmasını sağladığı gösterilmiştir.

Verilerinizdeki aykırı değerleri nasıl ele almaya karar verirseniz verin, kararınızı gerekçenizle birlikte analizinizin sonucuna not etmelisiniz.

Ek kaynaklar

Aşağıdaki eğitimlerde farklı istatistiksel yazılımlarda aykırı değerlerin nasıl bulunacağı ve kaldırılacağı açıklanmaktadır:

Excel’de Aykırı Değerler Nasıl Bulunur?
Google E-Tablolar’da aykırı değerler nasıl bulunur?
R’de aykırı değerler nasıl bulunur?
Python’da aykırı değerler nasıl bulunur?
SPSS’de aykırı değerler nasıl bulunur?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir