Standardizasyon veya normalizasyon: fark nedir?
Standardizasyon ve normalleştirme, verileri yeniden boyutlandırmanın iki yoludur.
Normalleştirme, bir veri kümesini ortalama 0 ve standart sapma 1 olacak şekilde ölçeklendirir. Bunu yapmak için aşağıdaki formülü kullanır:
x yeni = (x ben – x ) / s
Altın:
- x i : veri kümesinin i’inci değeri
- x : Örnek şu anlama gelir:
- s : numunenin standart sapması
Normalleştirme, her değer 0 ile 1 arasında olacak şekilde veri kümesini yeniden boyutlandırır. Bunu aşağıdaki formülü kullanarak yapar:
x yeni = (x ben – x dk ) / (x maksimum – x dk )
Altın:
- x i : veri kümesinin i’inci değeri
- x min : Veri kümesindeki minimum değer
- x max : Veri kümesindeki maksimum değer
Aşağıdaki örnekler pratikte bir veri setinin nasıl standartlaştırılacağını ve normalleştirileceğini göstermektedir.
Örnek: Veriler nasıl standartlaştırılır
Aşağıdaki veri setine sahip olduğumuzu varsayalım:
Veri setindeki ortalama değer 43,15, standart sapma ise 22,13’tür.
13’ün ilk değerini normalleştirmek için daha önce paylaşılan formülü uygulayacağız:
- x yeni = (x ben – x ) / s = (13 – 43,15) / 22,13 = -1,36
16’nın ikinci değerini normalleştirmek için aynı formülü kullanırız:
- x yeni = (x i – x ) / s = (16 – 43,15) / 22,13 = -1,23
19’un üçüncü değerini normalleştirmek için aynı formülü kullanırız:
- x yeni = (x i – x ) / s = (19 – 43,15) / 22,13 = -1,09
Orijinal veri kümesindeki her değeri standartlaştırmak için bu formülün aynısını kullanabiliriz:
Örnek: Veriler nasıl normalleştirilir?
Yine aşağıdaki veri setine sahip olduğumuzu varsayalım:
Veri setindeki minimum değer 13, maksimum değer ise 71’dir.
13’ün ilk değerini normalleştirmek için daha önce paylaşılan formülü uygulayacağız:
- x yeni = (x i – x min ) / (x maks – x min ) = (13 – 13) / (71 – 13) = 0
16’nın ikinci değerini normalleştirmek için aynı formülü kullanırız:
- x yeni = (x i – x min ) / (x maks – x min ) = (16 – 13) / (71 – 13) = 0,0517
19’un üçüncü değerini normalleştirmek için aynı formülü kullanırız:
- x yeni = (x i – x min ) / (x maks – x min ) = (19 – 13) / (71 – 13) = 0,1034
Orijinal veri kümesindeki her değeri 0 ile 1 arasında normalleştirmek için bu formülün aynısını kullanabiliriz:
Standardizasyon veya normalizasyon: ne zaman kullanılmalı?
Tipik olarak, farklı ölçeklerde ölçülen birden fazla değişkenin olduğu ve değişkenlerin her birinin aynı aralığa sahip olmasını istediğimiz bir tür analiz yaparken verileri normalleştiririz .
Bu, bir değişkenin, özellikle farklı birimlerle ölçülüyorsa (örneğin, bir değişken inç, diğeri yarda olarak ölçülüyorsa) aşırı etkiye sahip olmasını önler.
Öte yandan, bir veri setindeki her bir değerin ortalamadan kaç standart sapma uzakta olduğunu bilmek istediğimizde genellikle verileri normalleştiririz .
Örneğin, belirli bir okuldaki 500 öğrencinin sınav puanlarının bir listesine sahip olabiliriz ve her sınav puanının ortalama puandan kaç standart sapma olduğunu bilmek isteriz.
Bu durumda ham verileri normalleştirerek bu bilgiyi öğrenebiliriz. Daha sonra standartlaştırılmış 1,26 puan, bu öğrencinin sınav puanının ortalama sınav puanının 1,26 standart sapma üzerinde olduğunu bize söyleyecektir.
Verilerinizi ister normalleştirmeye ister standartlaştırmaya karar verin, aşağıdaki noktaları aklınızda bulundurun:
- Normalleştirilmiş bir veri kümesi her zaman 0 ile 1 arasında değerlere sahip olacaktır.
- Standartlaştırılmış bir veri setinin ortalaması 0 ve standart sapması 1 olacaktır, ancak maksimum ve minimum değerler için belirli bir üst veya alt sınır yoktur.
Özel senaryonuza bağlı olarak verileri normalleştirmek veya standartlaştırmak daha anlamlı olabilir.
Ek kaynaklar
Aşağıdaki eğitimler, farklı istatistiksel yazılımlarda verilerin nasıl standartlaştırılacağını ve normalleştirileceğini açıklamaktadır:
R’deki veriler nasıl normalleştirilir
Excel’de veriler nasıl normalleştirilir
Python’da veriler nasıl normalleştirilir?
R’deki veriler nasıl standartlaştırılır