Excel'de keşif amaçlı veri analizi nasıl gerçekleştirilir


Herhangi bir veri analizi projesinin ilk adımlarından biri , keşfedici veri analizidir .

Bu, bir veri kümesini üç şekilde keşfetmeyi içerir:

1. Tanımlayıcı istatistikleri kullanarak bir veri kümesini özetleyin .

2. Grafikleri kullanarak bir veri kümesini görselleştirin .

3. Eksik değerleri tanımlayın .

Bu üç eylemi gerçekleştirerek, bir veri kümesindeki değerlerin nasıl dağıtıldığını anlayabilir ve hipotez testine geçmeden, bir regresyon modeli yerleştirmeden veya istatistiksel modelleme yapmadan önce sorunlu değerleri tespit edebilirsiniz.

Aşağıdaki adım adım örnek, Excel’de keşif amaçlı veri analizinin nasıl gerçekleştirileceğini gösterir.

1. Adım: Veri kümesini oluşturun

Öncelikle 10 farklı basketbolcu hakkında bilgi içeren basit bir veri seti oluşturalım:

Bu veri kümesi üç değişken (sayılar, ribaundlar, asistler) içerir ve bazı değişkenler, gerçek dünya veri kümelerinde yaygın olan boş veya NA değerlerine sahiptir.

2. Adım: Verileri özetleyin

Daha sonra bu veri kümesindeki üç değişkenin her biri için ortalama, medyan, çeyrek, minimum ve maksimum değerleri hesaplayabiliriz:

B sütunundaki her hücre için kullandığımız formül:

  • B13 : =ORTALAMA( B2:B11 )
  • B14 : =MEDYAN( B2:B11 )
  • B15 : =DÖRTTEBİR( B2:B11 , 1)
  • B16 : =DÖRTTEBİR( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAKS( B2:B11 )

Daha sonra C ve D sütunlarındaki değerler için aynı metrikleri hesaplayabilmemiz için her formülü sağa sürükledik.

Her değişken için bu tanımlayıcı istatistikleri hesaplayarak, her değişkene ait değerlerin dağılımını iyi bir şekilde anlayabiliriz.

Not : Her formül, her bir tanımlayıcı istatistiği hesaplarken boş veya NA değerlerini otomatik olarak dikkate almaz.

3. Adım: Verileri görselleştirin

Veri kümesinin değerlerini görselleştirmek için grafikler de oluşturabiliriz.

Örneğin, Nokta değişkenine ilişkin değerlerin dağılımını görselleştirmek için B2:B11 hücre aralığındaki değerleri vurgulayabilir, ardından üst şeritteki Ekle sekmesine tıklayıp ardından Grafik grubundaki Histogram simgesine tıklayabiliriz. :

Aşağıdaki histogram otomatik olarak oluşturulacaktır:

Bu histogram, oyuncuların attığı puanların dağılımını görselleştirmenizi sağlar.

Örneğin şunu görebiliriz:

  • 4 oyuncu 10 ile 15 arasında puan aldı.
  • 1 oyuncu 15 ila 20 puan arasında puan aldı.
  • 2 oyuncu 20 ile 25 arasında puan aldı.
  • 3 oyuncu 25 ile 30 arasında puan aldı.

Her değişkene ait değerlerin dağılımını görselleştirmek amacıyla veri setimizdeki her değişken için bu işlemi tekrarlayabiliriz.

4. Adım: Eksik değerleri belirleyin

B sütunundaki eksik değerlerin sayısını saymak için aşağıdaki formülü de kullanabiliriz:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Bu formülü B19 hücresine yazıp ardından sağa sürükleyerek veri kümesindeki her değişken için eksik değerlerin sayısını hesaplayabiliriz:

Sonuçtan şunu görebiliriz:

  • Puan sütununda 0 eksik değer var.
  • Ribaund sütununda 2 eksik değer var.
  • Yardımlar sütununda 1 eksik değer var.

Artık bu veri kümesi üzerinde bazı temel keşifsel veri analizlerini tamamladık ve bu veri kümesindeki her değişken için değerlerin nasıl dağıtıldığına dair oldukça iyi bir anlayış kazandık.

İlgili: Excel’de Boş Hücreleri Sıfırla Değiştirme

Ek kaynaklar

Aşağıdaki eğitimlerde Excel’deki diğer genel görevlerin nasıl gerçekleştirileceği açıklanmaktadır:

Excel’de Beş Sayının Özeti Nasıl Hesaplanır
Excel’de gruba göre ortalama nasıl hesaplanır
Excel’de grup başına maksimum değer nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir