Ham veri olarak kabul edilen nedir? (tanım ve örnekler)
İstatistiklerde ham veri , doğrudan birincil kaynaktan toplanmış ve hiçbir şekilde işlenmemiş verileri ifade eder.
Her türlü veri analitiği projesinde ilk adım ham verilerin toplanmasıdır. Bu veriler toplandıktan sonra temizlenebilir, dönüştürülebilir, özetlenebilir ve görselleştirilebilir.
Ham veri toplamanın avantajı, sonunda onu belirli olayları daha iyi anlamak için kullanabilmek veya bir tür tahmin modeli oluşturmak için kullanabilmektir.
Aşağıdaki örnek, ham verilerin gerçek hayatta nasıl toplanabileceğini ve kullanılabileceğini göstermektedir.
Örnek: ham verilerin toplanması ve kullanılması
Spor, ham verilerin sıklıkla toplandığı bir alandır. Örneğin profesyonel basketbolculara ilişkin çeşitli istatistikler için ham veriler toplanabilmektedir.
1. Adım: Ham verileri toplayın
Bir basketbol gözlemcisinin, profesyonel bir basketbol takımındaki 10 oyuncu için aşağıdaki ham verileri topladığını hayal edin:
Bu veri seti, doğrudan izci tarafından toplandığı ve hiçbir şekilde temizlenmediği veya işlenmediği için ham verileri temsil eder.
2. Adım: Ham verileri temizleyin
Bu verileri özet tablolar, grafikler veya başka herhangi bir şey oluşturmak için kullanmadan önce, izcinin öncelikle eksik değerleri kaldırması ve tüm “kirli” veri değerlerini temizlemesi gerekir.
Örneğin, veri kümesinde dönüştürülmesi veya kaldırılması gereken birkaç değeri tespit edebiliriz:
İzci, birkaç eksik değeri olduğundan son satırı tamamen kaldırmaya karar verebilir. Daha sonra aşağıdaki “temiz” verileri elde etmek için veri kümesindeki karakter değerlerini temizleyebilir:
3. Adım: Verileri özetleyin
Veriler temizlendikten sonra izci, veri kümesindeki her değişkeni özetleyebilir. Örneğin “Dakika” değişkeni için aşağıdaki özet istatistikleri hesaplayabilir:
- Ortalama : 24 dakika
- Medyan : 22 dakika
- Standart sapma : 9,45 dakika
4. Adım: Verileri görselleştirin
İzci daha sonra veri değerlerini daha iyi anlamak için veri kümesindeki değişkenleri görselleştirebilir.
Örneğin, her oyuncunun oynadığı toplam dakikayı görselleştirmek için aşağıdaki çubuk grafiğini oluşturabilir:
Veya oynanan dakikalar ile kazanılan puanlar arasındaki ilişkiyi görselleştirmek için aşağıdaki dağılım grafiğini oluşturabilir:
Bu tür grafiklerin her biri, verileri daha iyi anlamasına yardımcı olabilir.
5. Adım: Model oluşturmak için verileri kullanın
Son olarak, veriler temizlendikten sonra izci bir tür tahmin modelini uyarlamaya karar verebilir.
Örneğin, basit bir doğrusal regresyon modeline uyabilir ve her oyuncunun attığı toplam puanı tahmin etmek için oynanan dakikaları kullanabilir.
Uygun regresyon denklemi:
Puan = 8,7012 + 0,2717*(dakika)
Gözlemci daha sonra bu denklemi kullanarak bir oyuncunun oynadığı dakika sayısına göre kazanacağı puan sayısını tahmin edebilir. Örneğin 30 dakika oynayan bir sporcunun 16,85 puan alması gerekir:
Puan = 8,7012 + 0,2717*(30) = 16,85
Ek kaynaklar
İstatistikler neden önemlidir?
İstatistikte örneklem büyüklüğü neden önemlidir?
İstatistikte gözlem nedir?
İstatistiklerdeki tablo verileri nelerdir?