Як нормалізувати дані між 0 і 1
Щоб нормалізувати значення в наборі даних між 0 і 1, ви можете використовувати таку формулу:
z i = (x i – min(x)) / (max(x) – min(x))
золото:
- z i : i-те нормалізоване значення в наборі даних
- x i : i-те значення набору даних
- min(x) : мінімальне значення в наборі даних
- max(x): максимальне значення в наборі даних
Наприклад, припустимо, що ми маємо такий набір даних:
Мінімальне значення в наборі даних – 13, а максимальне – 71.
Щоб нормалізувати перше значення 13 , ми б застосували формулу, наведену раніше:
- z i = (x i – min(x)) / (max(x) – min(x)) = (13 – 13) / (71 – 13) = 0
Щоб нормалізувати друге значення 16 , ми використаємо ту саму формулу:
- z i = (x i – min(x)) / (max(x) – min(x)) = (16 – 13) / (71 – 13) = 0,0517
Щоб нормалізувати третє значення 19 , ми використаємо ту саму формулу:
- z i = (x i – min(x)) / (max(x) – min(x)) = (19 – 13) / (71 – 13) = 0,1034
Ми можемо використати ту саму формулу, щоб нормалізувати кожне значення у вихідному наборі даних між 0 і 1:
Використовуючи цей метод нормалізації, такі твердження завжди будуть вірними:
- Нормалізоване значення для мінімального значення в наборі даних завжди буде 0.
- Нормалізоване значення для максимального значення в наборі даних завжди буде 1.
- Нормовані значення для всіх інших значень у наборі даних будуть між 0 і 1.
Коли нормалізувати дані
Часто ми стандартизуємо змінні, коли робимо якийсь тип аналізу, у якому ми маємо кілька змінних, виміряних у різних масштабах, і ми хочемо, щоб кожна зі змінних мала однаковий діапазон.
Це запобігає надмірному впливу однієї змінної, особливо якщо вона вимірюється в різних одиницях (тобто якщо одна змінна вимірюється в дюймах, а інша – у ярдах).
Варто також зазначити, що в цьому підручнику для нормалізації значень даних ми використали метод, відомий як мінімально-максимальна нормалізація .
Два найпоширеніші методи нормалізації:
1. Нормування Min-Max
- Призначення: перетворює кожне значення даних на значення від 0 до 100.
- Формула: нове значення = (значення – min) / (max – min) * 100
2. Середнє нормування
- Призначення: масштабує значення таким чином, щоб середнє значення всіх значень дорівнювало 0 і станд. розробник дорівнює 1.
- Формула: нове значення = (значення – середнє) / (стандартне відхилення)
Додаткові ресурси
У наступних посібниках пояснюється, як нормалізувати дані за допомогою різного статистичного програмного забезпечення:
Як нормалізувати дані в Excel
Як нормалізувати дані в R
Як нормалізувати стовпці в Python