Standardisasi muncul ketika fitur dari kumpulan data input memiliki perbedaan besar antara rentangnya, atau hanya ketika mereka diukur dalam unit yang berbeda (misalnya, pound, meter, mil, dll.).
Misalnya, Variabel yang berkisar antara 0 dan 1000 akan lebih besar daripada variabel yang berkisar antara 0 dan 1. Menggunakan variabel-variabel ini tanpa standarisasi akan memberikan variabel dengan rentang bobot yang lebih besar dari 1000 dalam analisis. Mengubah data ke skala yang sebanding dapat mencegah masalah ini. Prosedur standarisasi data yang khas menyamakan kisaran dan/atau variabilitas data.
Standardisasi mengasumsikan bahwa data Anda memiliki distribusi Gaussian (kurva lonceng). Ini tidak sepenuhnya harus benar, tetapi teknik ini lebih efektif jika distribusi atribut Anda adalah Gaussian. Standardisasi berguna ketika data Anda memiliki skala yang bervariasi dan algoritme yang Anda gunakan membuat asumsi tentang data Anda yang memiliki distribusi Gaussian, seperti regresi linier , regresi logistik, dan analisis diskriminan linier.
| Cara Melakukan Standarisasi Skala Data |
|---|
|
Standarisasi dapat dilakukan dengan mengurangi data dengan mean rata-rata lalu membaginya dengan standar deviasi $z=\frac{x-\mu}{\sigma}$ |