R'de kolmogorov-smirnov testi (örneklerle)
Kolmogorov-Smirnov testi, bir örneklemin belirli bir dağılımdan gelip gelmediğini test etmek için kullanılır.
R’de bir veya iki örnekli Kolmogorov-Smirnov testi gerçekleştirmek için ks.test() işlevini kullanabiliriz.
Bu eğitimde bu özelliğin pratikte nasıl kullanılacağına dair bir örnek gösterilmektedir.
Örnek 1: Bir Kolmogorov-Smirnov test örneği
Aşağıdaki örnek verilere sahip olduğumuzu varsayalım:
#make this example reproducible seed(0) #generate dataset of 100 values that follows a Poisson distribution with mean=5 data <- rpois(n= 20 , lambda= 5 )
İlgili: R’de dpois, ppois, qpois ve rpois için bir kılavuz
Aşağıdaki kod, normal dağılımdan gelip gelmediklerini belirlemek için 100 veri değerinden oluşan bu örnek üzerinde Kolmogorov-Smirnov testinin nasıl gerçekleştirileceğini gösterir:
#perform Kolmogorov-Smirnov test ks.test(data, “ pnorm ”) One-sample Kolmogorov–Smirnov test data:data D = 0.97725, p-value < 2.2e-16 alternative hypothesis: two-sided
Sonuçtan test istatistiğinin 0,97725 ve karşılık gelen p değerinin 2,2e-16 olduğunu görebiliriz. P değeri 0,05’ten küçük olduğundan sıfır hipotezini reddediyoruz. Örnek verilerin normal dağılımdan gelmediğini söyleyecek yeterli kanıtımız var.
Örnek verileri bir Poisson dağılımını takip eden rastgele değerler üreten rpois() fonksiyonunu kullanarak oluşturduğumuz için bu sonuç şaşırtıcı olmamalıdır.
Örnek 2: İki örnekli Kolmogorov-Smirnov testi
Diyelim ki aşağıdaki iki örnek veri setimiz var:
#make this example reproducible seed(0) #generate two datasets data1 <- rpois(n= 20 , lambda= 5 ) data2 <- rnorm( 100 )
Aşağıdaki kod, aynı dağılımdan gelip gelmediklerini belirlemek için bu iki örnek üzerinde Kolmogorov-Smirnov testinin nasıl gerçekleştirileceğini gösterir:
#perform Kolmogorov-Smirnov test
ks.test(data1, data2)
Two-sample Kolmogorov–Smirnov test
data: data1 and data2
D = 0.99, p-value = 1.299e-14
alternative hypothesis: two-sided
Sonuçtan test istatistiğinin 0,99 ve karşılık gelen p değerinin 1,299e-14 olduğunu görebiliriz. P değeri 0,05’ten küçük olduğundan sıfır hipotezini reddediyoruz. İki örnek veri kümesinin aynı dağılımdan olmadığını söyleyecek yeterli kanıtımız var.
İlk örnek için değerleri Poisson dağılımını kullanarak, ikinci örnek için ise normal dağılımı kullanarak değerler ürettiğimiz için bu sonuç da şaşırtıcı olmamalıdır.
Ek kaynaklar
R’de Shapiro-Wilk testi nasıl yapılır
R’de Anderson-Darling testi nasıl yapılır?
R’de çok değişkenli normallik testleri nasıl yapılır