Standardizasyon ve Normalizasyon'a neden ihtiyaç duyulur?
İstatistikte, veriler üzerinde bazı hesaplamalar yapmadan önce çeşitli sayısal zorluklardan kaçınmak ve daha iyi sonuçlar elde etmek amacıyla veya numerik veriler arasında farklılığın çok fazla olduğu durumlarda verileri daha dar bir aralığa sıkıştırmak için Standardizasyon ve Normalizasyon teknikleri kullanılır. Ancak bu yöntemlerin her zaman uygulanacağına dair bir kural yoktur.
- Standartlaştırma Veri setindeki tüm verilerin ortalaması 0'a çekilir, standart sapma 1 olur.
- Normalleştirme Genellikle verileri min() ve max() değerlere göre (0-1) aralığına sıkıştırır. Yani en düşük veri artık 0 olurken en yüksek veri +1 olur.
Öncelikle bir örnek ile başlayalım; aşağıda ki örnek verilerde tecrübe yılları 1 ve katları iken maaş aralıkları 1.000 ve katları olarak ilerliyor.
Eee.. ne var bunda? diyebilirsiniz ancak bazı hesaplamalar, bu verileri kendi aralarında işleme sokarken büyük aralıklı değişkenleri küçük aralıklı değişkenlerden daha önemli gibi görerek yanlı davranıp istatistiksel olarak taraflı davranabiliyor. Günün sonunda hesaplama yöntemi bu sebeplerle iyi sonuçlar vermeyebilir. Bu nedenle her iki kolondaki değerleri(tecrübe ve maaş) belirli bir aralığa sıkıştıracağız. Bunun için en çok bilinen 2 yöntem: Standardizasyon ve Normalizasyon'dur.
Standardizasyon
Tüm değerler, ortalaması 0 ve standart sapması 1 olan bir aralığa sıkıştırılır. Her değere Z-Skor denir. Z-skor, bir verinin ortalamaya olan uzaklığıdır.
Meraklısına EXCEL formülü:
#TECRÜBE
=STANDARTLAŞTIRMA(A2;ORTALAMA($A$2:$A$7);STDSAPMA.P($A$2:$A$7))
#MAAŞ
=STANDARTLAŞTIRMA(B2;ORTALAMA($B$2:$B$7);STDSAPMA.P($B$2:$B$7))
Normalizasyon
Tüm değerler, en büyük değer 1, en küçük değer 0 olacak şekilde (0-1) aralığına alınır.
Meraklısına EXCEL formülü:
#TECRÜBE
=(A2-MİN(A$2:A$7))/(MAK(A$2:A$7)-MİN(A$2:A$7))
#MAAŞ
=(B2-MİN(B$2:B$7))/(MAK(B$2:B$7)-MİN(B$2:B$7))

