Kesilmiş ve sansürlenmiş veriler: tanım + örnekler
Çoğu zaman, veri toplarken araştırmacılar belirli değerleri sansürlemeye veya kısaltmaya karar verebilir.
Veri değerlerinin sansürlenmesi, belirli bir değerin altındaki veya üstündeki değerlere ilişkin yalnızca kısmi bilgilerin toplanması anlamına gelir.
Örneğin, bir kişinin yılda 25.000 dolardan az kazandığını biliyor olabiliriz, ancak onun yıllık gelirini tam olarak bilemeyebiliriz.
Veri değerlerinin kesilmesi, bir veri kümesinden belirli bir değerin altında veya üstünde olan değerlerin kaldırılması anlamına gelir.
Örneğin bir araştırmacı yalnızca yılda 25.000 dolardan fazla kazanan kişilerle ilgilenebilir. Yani 25.000 dolardan az kazanan herkes veri setinden çıkarılıyor.
Bu eğitimde verilerin ne zaman sansürlenebileceği veya kesilebileceğine ilişkin çeşitli örnekler verilmektedir.
Veri sansürü
Veri değerlerinin sansürlenmesi, belirli bir değerin altındaki veya üstündeki değerlere ilişkin yalnızca kısmi bilgilerin toplanması anlamına gelir.
Aşağıdaki örnekler veri değerlerini sansürlemeye karar verebileceğimiz senaryoları göstermektedir.
Örnek 1: Yıllık gelir
Bir araştırmacının yıllık gelire ilişkin anket verilerini topladığını varsayalım. Bir kişi yılda 25.000 ABD Dolarından az kazanıyorsa, yıllık gelirini tam olarak belirtmek yerine bu geliri bir veri tabanında “<25.000 ABD Doları” olarak raporlamaya karar verir.
Bu veri sansürüne bir örnek teşkil ediyor çünkü bir bireyin belirli bir miktardan daha az kazandığını biliyoruz ancak yıllık gelirini tam olarak bilmiyoruz.
Örnek 2: kirlilik seviyeleri
Bir biyoloğun farklı su kütlelerindeki kirlilik seviyelerini ölçmek için belirli bir araç kullandığını varsayalım. Aracı, milyonda 0,002 parçanın altındaki kirliliği ölçememektedir. Bu nedenle, kirlilik düzeyi bu eşiğin altında olan herhangi bir su kütlesi, kesin miktar yerine basitçe “<0,002” olarak rapor edilecektir.
Bu veri sansürüne bir örnek teşkil ediyor çünkü bazı su kütlelerinin kirlilik seviyelerinin milyonda 0,002 parçanın altında olduğunu biliyoruz, ancak bunların kesin kirlilik seviyelerini bilmiyoruz.
Verileri kısalt
Veri değerlerinin kesilmesi, bir veri kümesinden belirli bir değerin altında veya üstünde olan değerlerin kaldırılması anlamına gelir.
Aşağıdaki örnekler, veri değerlerini kısaltmaya karar verebileceğimiz senaryoları göstermektedir.
Örnek 1: Suç sayısı
Bir kolluk kuvvetinin belirli bir bölgedeki bireyler tarafından işlenen suç türlerini araştırdığını varsayalım. Varsayılan olarak 0 suç işleyen kişiler herhangi bir suç işlemediği için veri setine dahil edilmeyecektir.
Bu, hiçbir suç işlemeyen herkesin veri kümesinden tamamen çıkarılması nedeniyle kısaltılmış verilere bir örnek teşkil etmektedir.
Örnek 2: Eğitim düzeyi
Bir profesörün belirli bir müfredat ile öğrenci sonuçları arasındaki ilişkiyi incelemek istediğini varsayalım.
Müfredatın yoğunluğundan dolayı profesör sadece şu anda genel not ortalaması 3,5’un üzerinde olan öğrencileri takip etmek istiyor. Bu nedenle programa başvuran ancak genel not ortalaması 3,5’un altında olan öğrenciler programa dahil edilmeyecektir.
Bu, kesilmiş verilerin bir örneğini temsil etmektedir; çünkü genel not ortalaması belirli bir eşiğin altında olan herkes veri setinin dışında bırakılır.
Özet
Verilerin sansürlenmesi , veri değerleri hakkında yalnızca kısmi bilgilerin toplanması anlamına gelirken, verilerin kesilmesi , veri değerlerinin bir veri kümesinden tamamen kaldırılması anlamına gelir.
Hem sansürleme hem de kesme, bir veri setinde bilgi kaybına neden olur, ancak kesme, belirli veri değerlerinin tamamen hariç tutulmasını içerdiğinden daha fazla bilgi kaybına neden olur.