R'de grubbs test cihazı nasıl çalıştırılır
Grubbs testi, bir veri setindeki aykırı değerlerin varlığını belirlemek için kullanılabilecek istatistiksel bir testtir.
Bu testi kullanmak için bir veri setinin yaklaşık olarak normal dağılıma sahip olması ve en az 7 gözlem içermesi gerekir.
Bu eğitimde, bir veri kümesindeki aykırı değerleri tespit etmek için R’de Grubbs testinin nasıl gerçekleştirileceği açıklanmaktadır.
Örnek: R’de Grubbs testi
R’de Grubbs testini gerçekleştirmek için Outliers paketindeki aşağıdaki sözdizimini kullanan grubbs.test() işlevini kullanabiliriz:
grubbs.test(x, tür = 10, karşıt = YANLIŞ, çift taraflı = YANLIŞ)
Altın:
- x: veri değerlerinin sayısal bir vektörü
- şunu yazın: 10 = maksimum değerin aykırı olup olmadığını test edin, 11 = minimum ve maksimum değerlerin aykırı olup olmadığını test edin, 20 = kuyrukta iki aykırı değer olup olmadığını test edin
- tam tersi: ortalamadan en büyük farka sahip değeri değil, tam tersini (en şüpheli olanın en yüksek olması durumunda en düşük, vb.) kontrol etmek isteyip istemediğinizi belirten mantık.
- iki taraflı: testi iki taraflı olarak ele alıp almamanız gerektiğini belirten mantıksal değer
Bu test aşağıdaki iki hipotezi kullanır:
H 0 (sıfır hipotezi): Verilerde aykırı değer yoktur.
H A (alternatif hipotez): Verilerde aykırı değer var.
Aşağıdaki örnek, bir veri kümesindeki maksimum değerin aykırı değer olup olmadığını belirlemek için Grubbs testinin nasıl gerçekleştirileceğini göstermektedir:
#load Outliers package library(Outliers) #createdata data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40) #perform Grubbs' Test to see if '40' is an outlier grubbs.test(data) # Grubbs test for one outlier # #data:data #G = 2.65990, U = 0.55935, p-value = 0.02398 #alternative hypothesis: highest value 40 is an outlier
Testin test istatistiği G = 2,65990’dır ve karşılık gelen p değeri p = 0,02398’dir . Bu değer 0,05’ten küçük olduğundan sıfır hipotezini reddedeceğiz ve maksimum 40 değerinin aykırı değer olduğu sonucuna varacağız.
Bunun yerine en düşük “5” değerinin aykırı değer olup olmadığını test etmek istersek, zıt=TRUE komutunu kullanabiliriz:
#perform Grubbs' Test to see if '5' is an outlier grubbs.test(data, opposite= TRUE ) # Grubbs test for one outlier # #data:data #G = 1.4879, U = 0.8621, p-value = 1 #alternative hypothesis: lowest value 5 is an outlier
Test istatistiği G = 1,4879’dur ve karşılık gelen p değeri p = 1’dir . Bu değer 0,05’ten küçük olmadığı için sıfır hipotezini reddedemiyoruz. Minimum “5” değerinin aykırı değer olduğunu söyleyecek yeterli kanıtımız yok.
Son olarak, veri setinin bir ucunda iki büyük değerimizin olduğunu varsayalım: 40 ve 42. Bu iki değerin aykırı değer olup olmadığını test etmek için Grubbs testini gerçekleştirebilir ve type=20 değerini belirtebiliriz:
#create dataset with two large values at one end: 40 and 42 data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) #perform Grubbs' Test to see if both 40 and 42 are outliers grubbs.test(data, type=20) # Grubbs test for two outliers # #data: data #U = 0.38111, p-value = 0.01195 #alternative hypothesis: highest values 40, 42 are outliers
Testin p değeri 0,01195’tir . Bu değer 0,05’ten küçük olduğundan sıfır hipotezini reddedebilir ve 40 ve 42 değerlerinin her ikisinin de aykırı değerler olduğunu söylemek için yeterli kanıtımız olduğu sonucuna varabiliriz.
Aykırı değerler nasıl ele alınır?
Grubbs testi veri kümenizde bir aykırı değer belirlerse birkaç seçeneğiniz vardır:
1. Değerin bir yazım hatası veya veri girişi hatası olmadığını bir kez daha kontrol edin. Bazen veri setlerinde aykırı değerler olarak görünen değerler, basitçe bir kişinin veri girişi sırasında yaptığı yazım hatalarıdır. Daha fazla karar vermeden önce geri dönün ve değerin doğru şekilde girildiğini doğrulayın.
2. Aykırı değere yeni bir değer atayın . Aykırı değerin bir yazım hatası veya veri girişi hatası sonucu olduğu ortaya çıkarsa, buna veri kümesinin ortalaması veya medyanı gibi yeni bir değer atamaya karar verebilirsiniz .
3. Aykırı değeri kaldırın. Değer gerçekten aykırı bir değerse ve genel analiziniz üzerinde önemli bir etkisi olacaksa onu kaldırmayı seçebilirsiniz.