Lojistik regresyon modelinin c istatistiği nasıl yorumlanır?


Bu eğitimde lojistik regresyon modelinin C istatistiğinin nasıl yorumlanacağına dair basit bir açıklama sağlanmaktadır.

Lojistik regresyon nedir?

Lojistik regresyon, yanıt değişkeni ikili olduğunda bir regresyon modeline uymak için kullandığımız istatistiksel bir yöntemdir. Lojistik regresyonun kullanımına ilişkin bazı örnekler:

  • Egzersiz, diyet ve kilonun kalp krizi geçirme olasılığını nasıl etkilediğini bilmek istiyoruz. Tepki değişkeni kalp krizidir ve bunun iki potansiyel sonucu vardır: kalp krizi meydana gelir veya gelmez.
  • GPA’nın, ACT puanının ve alınan AP dersleri sayısının belirli bir üniversiteye kabul edilme olasılığını nasıl etkilediğini bilmek istiyoruz. Yanıt değişkeni kabuldür ve iki potansiyel sonucu vardır: kabul edilmiş veya kabul edilmemiş.
  • Kelime sayısının ve e-posta başlığının bir e-postanın spam olma olasılığını etkileyip etkilemediğini bilmek istiyoruz. Yanıt değişkeni spam’dir ve iki potansiyel sonucu vardır: spam veya spam değil.

Tahmin edici değişkenlerin sayısal veya kategorik olabileceğini unutmayın; önemli olan yanıt değişkeninin ikili olmasıdır. Durum böyle olduğunda lojistik regresyon, yordayıcı değişkenler ile yanıt değişkeni arasındaki ilişkiyi açıklamak için kullanılabilecek uygun bir modeldir.

Lojistik regresyon modelinin yeterliliği nasıl değerlendirilir?

Lojistik regresyon modelini bir veri setine uydurduğumuzda, genellikle modelin verilere ne kadar iyi uyduğuyla ilgileniriz. Özellikle, modelin olumlu ve olumsuz sonuçları doğru bir şekilde tahmin etme yeteneğiyle ilgileniyoruz.

Duyarlılık, sonuç gerçekten olumluyken modelin bir gözlem için olumlu bir sonuç öngörme olasılığını ifade eder.

Spesifiklik, sonuç gerçekten negatif olduğunda modelin bir gözlem için olumsuz bir sonuç öngörme olasılığını ifade eder.

Lojistik regresyon modeli, %100 duyarlılığa ve özgüllüğe sahipse gözlemleri sınıflandırmak için mükemmeldir, ancak pratikte bu neredeyse hiçbir zaman gerçekleşmez.

Lojistik regresyon modelini yerleştirdikten sonra, yordayıcı değişkenlerin değerlerine dayalı olarak belirli bir gözlemin olumlu bir sonuca sahip olma olasılığını hesaplamak için kullanılabilir.

Bir gözlemin pozitif olarak sınıflandırılması gerekip gerekmediğini belirlemek için, eşiğin üzerinde düzeltilmiş olasılığa sahip gözlemlerin pozitif olarak sınıflandırılacağı ve eşiğin altında düzeltilmiş olasılığa sahip tüm gözlemlerin negatif olarak sınıflandırılacağı şekilde bir eşik seçebiliriz. .

Örneğin eşik değerini 0,5 olarak seçtiğimizi varsayalım. Bu, düzeltilmiş olasılığı 0,5’ten büyük olan herhangi bir gözlemin pozitif sonuç vereceği, düzeltilmiş olasılığı 0,5’ten küçük veya ona eşit olan herhangi bir gözlemin ise negatif sonuç vereceği anlamına gelir.

ROC eğrisinin çizilmesi

Bir modelin özgüllüğüne karşı duyarlılığını görselleştirmenin en yaygın yollarından biri, eşik değeri olarak duyarlılık değerlerine karşı özgüllük 1’in grafiği olan bir Alıcı Çalışma Karakteristiği ( ROC ) eğrisi çizmektir. nokta 0’dan 1’e gider:

Duyarlılığı ve özgüllüğü yüksek olan bir model, grafiğin sol üst köşesine uyan bir ROC eğrisine sahip olacaktır. Duyarlılığı ve özgüllüğü düşük olan bir model, 45 derecelik diyagonale yakın bir eğriye sahip olacaktır.

AUC (eğrinin altındaki alan), bize modelin pozitif ve negatif sonuçları ayırt etme yeteneği hakkında bir fikir verir. AUC, 0 ile 1 arasında değişebilir. AUC ne kadar yüksek olursa, model sonuçları doğru şekilde sınıflandırmada o kadar iyi olur.

Bu, grafiğin sol üst köşesini saran ROC eğrisine sahip bir modelin, eğrinin altında yüksek bir alana sahip olacağı ve dolayısıyla sonuçları doğru şekilde sınıflandırma konusunda iyi bir iş çıkaracağı anlamına gelir. Tersine, 45 derecelik diyagonali kucaklayan ROC eğrisine sahip bir model, eğrinin altında düşük bir alana sahip olacak ve bu nedenle sonuçları sınıflandırma konusunda iyi bir iş çıkarmayan bir model olacaktır.

C istatistiğini anlamak

Uyum istatistiği olarak da bilinen c istatistiği , AUC’ye (eğri altındaki alan) eşittir ve aşağıdaki yorumlara sahiptir:

  • 0,5’ten küçük bir değer, zayıf bir modele işaret eder.
  • 0,5 değeri, modelin sonuçları sınıflandırmada şanstan daha iyi olmadığını gösterir.
  • Değer 1’e ne kadar yakınsa model sonuçları o kadar doğru sınıflandırabilir.
  • 1 değeri, modelin sonuçları sınıflandırmak için mükemmel olduğu anlamına gelir.

Yani bir C istatistiği bize bir modelin sonuçları doğru sınıflandırmada ne kadar etkili olduğuna dair bir fikir verir.

Klinik ortamda, C istatistiğini tüm olası birey çiftlerini, yani pozitif bir sonuç deneyimleyen bir birey ve negatif bir sonuç deneyimleyen bir bireyi alarak hesaplamak mümkündür. Daha sonra c istatistiği, olumlu bir sonuç deneyimleyen bireyin, olumlu sonucu deneyimlemeyen bireye göre sonucu deneyimleme olasılığının daha yüksek olduğu bu tür çiftlerin oranı olarak hesaplanabilir.

Örneğin, kalp krizi olasılığını tahmin etmek için yaş ve kan basıncı gibi öngörücü değişkenleri kullanarak bir lojistik regresyon modeli uyguladığımızı varsayalım.

Modelin c-istatistiğini bulmak için, kalp krizi geçiren bir birey ve kalp krizi geçirmemiş bir bireyden oluşan tüm olası birey çiftlerini tanımlayabildik. Daha sonra c istatistiği, kalp krizi geçiren kişinin aslında kalp krizi geçirmeyen kişiye kıyasla kalp krizi geçirme olasılığının daha yüksek olduğu bu çiftlerin oranı olarak hesaplanabilir. kalp krizi.

Çözüm

Bu yazıda şunları öğrendik:

  • Lojistik regresyon, yanıt değişkeni ikili olduğunda bir regresyon modeline uymak için kullandığımız istatistiksel bir yöntemdir.
  • Lojistik regresyon modelinin uyumunun iyiliğini değerlendirmek için, modelin sonuçları ne kadar iyi sınıflandırabildiğini bize söyleyen duyarlılık ve özgüllüğe bakabiliriz.
  • Duyarlılığı ve özgüllüğü görselleştirmek için bir ROC eğrisi oluşturabiliriz.
  • AUC (eğrinin altındaki alan), modelin sonuçları ne kadar doğru şekilde sınıflandırabildiğini gösterir. ROC eğrisi grafiğin sol üst köşesine sarıldığında, modelin sonuçları başarıyla sınıflandırdığını gösterir.
  • c istatistiği AUC’ye (eğrinin altındaki alan) eşittir ve aynı zamanda tüm olası birey çiftleri (yani pozitif bir sonuç deneyimleyen bir birey ve negatif bir sonuç deneyimleyen bir birey) alınarak da hesaplanabilir. Daha sonra c istatistiği, olumlu bir sonuç deneyimleyen bireyin, olumlu sonucu deneyimlemeyen bireye göre sonucu deneyimleme olasılığının daha yüksek olduğu bu tür çiftlerin oranıdır.
  • Bir C istatistiği 1’e ne kadar yakınsa, model sonuçları o kadar doğru şekilde sınıflandırabilir.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir