İstatistiksel ve pratik öneme i̇lişkin basit bir açıklama
İstatistiksel hipotez, bir popülasyon parametresi hakkında bir varsayımdır. Örneğin, belirli bir ilçedeki bir erkeğin ortalama boyunun 68 inç olduğunu varsayabiliriz. Boyla ilgili hipotez istatistiksel bir hipotezdir ve Amerika Birleşik Devletleri’ndeki bir erkeğin gerçek ortalama boyu nüfus parametresidir .
Hipotez testi, istatistiksel bir hipotezi reddetmek veya reddetmek için kullandığımız resmi bir istatistiksel testtir. Hipotez testini gerçekleştirmek için popülasyondan rastgele bir örnek alırız ve sıfır hipotezinin gerçekten doğru olduğu göz önüne alındığında, örnekteki verilerin meydana gelme olasılığının olup olmadığını belirleriz.
Eğer örnek veriler bu hipotez kapsamında yeterince olasılık dışı ise, o zaman sıfır hipotezini reddedebilir ve bir etkinin var olduğu sonucuna varabiliriz.
Sıfırın doğru olduğunu varsayarak örnek verinin “yeterince olasılık dışı” olup olmadığını belirlemenin yolu, belirli bir anlamlılık düzeyi belirlemek (genellikle 0,01, 0,05 veya 0,10 olarak seçilir), ardından hipotez testinin p değerinin daha düşük olup olmadığını kontrol etmektir. bu önem düzeyinden daha fazladır.
P değeri anlamlılık seviyesinden küçükse, sonuçların istatistiksel olarak anlamlı olduğunu söyleriz. Bu sadece belirli bir etkinin var olduğu anlamına gelir, ancak bu etkinin gerçek dünyada gerçekten pratik olduğu anlamına gelmez. Sonuçlar pratik olarak anlamlı olmasa da istatistiksel olarak anlamlı olabilir.
İlgili: P değerlerinin ve istatistiksel anlamlılığın açıklaması
Pratik önemi
Hipotez testlerinin küçük etki büyüklüğüne rağmen istatistiksel olarak anlamlı sonuçlar üretmesi mümkündür. Küçük etki boyutlarının düşük (ve dolayısıyla istatistiksel olarak anlamlı) p değerleri üretebilmesinin iki ana yolu vardır:
1. Örneklenen verilerin değişkenliği çok düşüktür. Örnek verileriniz düşük değişkenliğe sahip olduğunda, bir hipotez testi popülasyon etkisine ilişkin daha kesin tahminler üretebilir ve testin küçük etkileri bile tespit etmesine olanak tanır.
Örneğin, ortalama test puanlarının okullar arasında önemli ölçüde farklı olup olmadığını belirlemek için iki farklı okuldan 20 öğrencinin test puanlarını gösteren aşağıdaki iki örnek üzerinde bağımsız iki örnekli bir t testi yapmak istediğimizi varsayalım:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
1. numunenin ortalaması 85.55 , 2. numunenin ortalaması 86.40’tır . Bağımsız iki örnekli t testi yaptığımızda test istatistiğinin -5,3065 ve buna karşılık gelen p değerinin <0,0001 olduğu ortaya çıkıyor. Test sonuçları arasındaki fark istatistiksel olarak anlamlıdır.
Bu iki örnek için ortalama test puanları arasındaki fark yalnızca 0,85’tir , ancak her okul için test puanlarındaki düşük değişkenlik, istatistiksel olarak anlamlı bir sonuçla sonuçlanır. Puanların standart sapmasının örnek 1 için 0,51 ve örnek 2 için 0,50 olduğunu unutmayın.
Bu düşük değişkenlik, hipotez testinin puanlar arasındaki küçük farkları tespit etmesine ve farkların istatistiksel olarak anlamlı olmasına izin veren şeydir.
Düşük değişkenliğin istatistiksel olarak anlamlı sonuçlara yol açabilmesinin altında yatan neden, bağımsız iki örnekli bir t testi için t testi istatistiğinin aşağıdaki şekilde hesaplanmasıdır:
test istatistiği t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
burada s 2 1 ve s 2 2 sırasıyla numune 1 ve numune 2 için numune varyasyonunu belirtir. Bu iki sayı küçük olduğunda t- testi istatistiğinin tamsayı paydasının küçük olduğuna dikkat edin.
Ve küçük bir sayıya böldüğünüzde büyük bir sayı elde edersiniz. Bu, t- testi istatistiğinin büyük olacağı ve karşılık gelen p değerinin küçük olacağı ve dolayısıyla istatistiksel olarak anlamlı sonuçlara yol açacağı anlamına gelir.
2. Örneklem boyutu çok büyüktür. Örneklem büyüklüğü ne kadar büyük olursa, hipotez testinin istatistiksel gücü de o kadar büyük olur ve küçük etkileri bile tespit etmesine olanak tanır. Bu, pratik önemi olmayan küçük etkilere rağmen istatistiksel olarak anlamlı sonuçlara yol açabilir.
Örneğin, ortalama test puanlarının okullar arasında önemli ölçüde farklı olup olmadığını belirlemek için iki farklı okuldan 20 öğrencinin test puanlarını gösteren aşağıdaki iki örnek üzerinde bağımsız iki örnekli bir t testi yapmak istediğimizi varsayalım:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Puanların dağılımını görüntülemek için her örnek için bir kutu grafiği oluşturursak, bunların birbirine çok benzediğini görebiliriz:
1. numunenin ortalaması 90.65 , 2. numunenin ortalaması ise 90.75’tir . 1. numunenin standart sapması 2,77 ve 2. numunenin standart sapması 2,78’dir . Bağımsız iki örnekli t testi yaptığımızda test istatistiğinin -0,113 ve buna karşılık gelen p değerinin 0,91 olduğu ortaya çıkıyor. Ortalama test puanları arasındaki fark istatistiksel olarak anlamlı değildir.
Ancak, iki numunenin numune boyutlarının her ikisinin de 200 olup olmadığını düşünün. Bu durumda, bağımsız iki örnekli bir t testi, test istatistiğinin -1,97 olduğunu ve karşılık gelen p değerinin 0,05’in hemen altında olduğunu ortaya çıkaracaktır. Ortalama test puanları arasındaki fark istatistiksel olarak anlamlıdır.
Büyük örneklem büyüklüklerinin istatistiksel olarak anlamlı sonuçlara yol açabilmesinin altında yatan neden, bir kez daha bağımsız iki örnekli bir t testi için t testi istatistiğine dayanmaktadır:
test istatistiği t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
n 1 ve n 2 küçük olduğunda t testi istatistiğinin tamsayı paydasının küçük olduğuna dikkat edin. Ve küçük bir sayıya böldüğünüzde büyük bir sayı elde edersiniz. Bu, t- testi istatistiğinin büyük olacağı ve karşılık gelen p değerinin küçük olacağı ve dolayısıyla istatistiksel olarak anlamlı sonuçlara yol açacağı anlamına gelir.
Pratik önemi değerlendirmek için konu uzmanlığını kullanın
Bir hipotez testinden elde edilen istatistiksel olarak anlamlı bir sonucun pratikte anlamlı olup olmadığını belirlemek için genellikle konu uzmanlığı gereklidir.
Önceki örneklerde, iki okuldaki test puanları arasındaki farkları test ederken, ortalama farkın 1 olup olmadığını belirlememize yardımcı olması için okullarda çalışan veya bu tür testleri uygulayan birinin uzmanlığından yararlanmak faydalı olacaktır. noktanın var olup olmadığı. pratik sonuçları vardır.
Örneğin alfa = 0,05 düzeyinde 1 puanlık bir ortalama fark istatistiksel olarak anlamlı olabilir ancak bu, en düşük puana sahip okulun, en yüksek puana sahip okulun daha yüksek kullandığı programı benimsemesi gerektiği anlamına mı gelir? Yoksa çok fazla idari maliyet gerektirecek ve uygulanması çok maliyetli/çok hızlı mı olacak?
İki okul arasında sınav puanlarında istatistiksel olarak anlamlı bir fark olması, farkın etki büyüklüğünün eğitim sisteminde bir tür değişikliğe neden olacak kadar büyük olduğu anlamına gelmez.
Pratik önemi değerlendirmek için güven aralıklarını kullanma
Pratik önemi belirlemek için başka bir yararlı araç güven aralığıdır . Bir güven aralığı bize gerçek popülasyon parametresinin muhtemelen içinde yer aldığı bir değer aralığı verir.
Örneğin iki okul arasındaki sınav puanları farkını karşılaştırma örneğine dönelim. Müdür, okulun yeni bir programa geçebilmesi için ortalama puan farkının en az 5 puan olması gerektiğini beyan edebilir.
Bir çalışmada test puanları arasındaki ortalama farkın 8 puan olduğunu görebiliyoruz. Ancak bu ortalama etrafındaki güven aralığı [4, 12] olabilir, bu da ortalama test sonuçları arasındaki gerçek farkın 4 olabileceğini gösterir. Bu durumda müdür, güven aralığı gerçek farkın 5’ten az olabileceğini gösterdiğinden okulun programı değiştirmeyeceği sonucuna varabilir.
Ancak başka bir çalışmada test sonuçları arasındaki ortalama farkın yine 8 puan olduğunu ancak ortalama etrafındaki güven aralığının olabileceğini görebiliriz [6, 10]. Bu aralık 5 içermediğinden, yönetici muhtemelen test puanları arasındaki gerçek farkın 5’ten büyük olduğu sonucuna varacak ve dolayısıyla programda değişiklik yapmanın mantıklı olduğuna karar verecektir.
Çözüm
Sonuç olarak şunu öğrendik:
- Yalnızca istatistiksel anlamlılık, belirli bir anlamlılık düzeyine dayalı bir etkinin olup olmadığını gösterir.
- Pratik önem , bu etkinin gerçek dünyada pratik sonuçlarının olup olmadığıdır.
- İstatistiksel önemi belirlemek için istatistiksel analizleri, pratik önemi değerlendirmek için ise alan uzmanlığını kullanırız.
- Küçük etki boyutları, (1) numune verilerinin değişkenliği çok küçük olduğunda ve (2) numune boyutu çok büyük olduğunda küçük p değerleri üretebilir.
- Bir hipotez testi yapmadan önce minimum etki büyüklüğünü belirleyerek, bir hipotez testinin sonucunun (istatistiksel olarak anlamlı olsa bile) gerçek dünyada gerçekten uygulanabilir olup olmadığını daha iyi değerlendirebiliriz.
- Güven aralıkları pratik önemi belirlemede yararlı olabilir. Minimum etki büyüklüğü bir güven aralığı içinde değilse, sonuçlar pratik olarak anlamlı olabilir.