Excel'de roc eğrisi nasıl oluşturulur (adım adım)
Lojistik regresyon, yanıt değişkeni ikili olduğunda bir regresyon modeline uymak için kullandığımız istatistiksel bir yöntemdir. Lojistik regresyon modelinin bir veri kümesine ne kadar iyi uyduğunu değerlendirmek için aşağıdaki iki ölçüme bakabiliriz:
- Duyarlılık: Sonuç gerçekten olumluyken modelin bir gözlem için olumlu bir sonuç tahmin etme olasılığı. Buna aynı zamanda “gerçek pozitif oran” da denir.
- Özgüllük: Sonuç gerçekten negatif olduğunda modelin bir gözlem için negatif bir sonuç öngörme olasılığı. Buna aynı zamanda “gerçek negatif oran” da denir.
Bu iki ölçümü görselleştirmenin bir yolu, “alıcı çalışma karakteristiği” eğrisi anlamına gelen bir ROC eğrisi oluşturmaktır. Bu, lojistik regresyon modelinin duyarlılığını ve özgüllüğünü gösteren bir grafiktir.
Aşağıdaki adım adım örnek, Excel’de bir ROC eğrisinin nasıl oluşturulacağını ve yorumlanacağını gösterir.
1. Adım: Verileri girin
Bazı ham verileri girerek başlayalım:
2. Adım: Kümülatif verileri hesaplayın
Daha sonra Başarılı ve Başarısız kategorilerinin kümülatif değerlerini hesaplamak için aşağıdaki formülü kullanalım:
- Kümülatif başarı değerleri: =TOPLA($B$3:B3)
- Kümülatif hata değerleri: =TOPLA($C$3:C3)
Daha sonra bu formülleri kopyalayıp D sütunu ve E sütunundaki her hücreye yapıştıracağız:
3. Adım: Yanlış pozitif oranını ve gerçek pozitif oranını hesaplayın
Daha sonra, aşağıdaki formülleri kullanarak yanlış pozitif oranı (FPR), gerçek pozitif oranı (TPR) ve eğri altındaki alanı (AUC) hesaplayacağız:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
Daha sonra bu formülleri F, G ve H sütunlarındaki her hücreye kopyalayıp yapıştıracağız:
Adım 4: ROC eğrisini oluşturun
ROC eğrisini oluşturmak için F3:G14 aralığındaki her değeri vurgulayacağız.
Daha sonra, üst şeritteki Ekle sekmesine tıklayacağız, ardından aşağıdaki yolu oluşturmak için Dağılım Ekle (X, Y) seçeneğine tıklayacağız:
Adım 5: AUC’yi hesaplayın
Eğri grafiğin sol üst köşesine ne kadar yakın olursa, model verileri kategorilere göre o kadar iyi sınıflandırabilir.
Yukarıdaki grafikten de görebileceğimiz gibi, bu lojistik regresyon modeli, verileri kategorilere ayırma konusunda çok iyi bir iş çıkarıyor.
Bunu ölçmek için, bize grafiğin ne kadarının eğrinin altında olduğunu söyleyen AUC’yi (eğrinin altındaki alan) hesaplayabiliriz.
AUC 1’e ne kadar yakınsa model o kadar iyidir. AUC değeri 0,5’e eşit olan bir model, rastgele sınıflandırma yapan bir modelden daha iyi değildir.
Eğrinin AUC’sini hesaplamak için H sütunundaki tüm değerleri basitçe toplayabiliriz:
AUC 0,802662 olarak çıkıyor. Bu değer oldukça yüksektir ve modelin verileri “Geçti” ve “Başarısız” kategorilerine ayırma konusunda iyi bir iş çıkardığını gösterir.
Ek kaynaklar
Aşağıdaki eğitimlerde Excel’de diğer ortak grafiklerin nasıl oluşturulacağı açıklanmaktadır:
Excel’de bir CDF nasıl çizilir
Excel’de Hayatta Kalma Eğrisi Nasıl Oluşturulur
Excel’de İstatistiksel Süreç Kontrol Tablosu Nasıl Oluşturulur