Как нормализовать данные между 0 и 1
Чтобы нормализовать значения в наборе данных от 0 до 1, вы можете использовать следующую формулу:
z i = (x i – min(x)) / (max(x) – min(x))
Золото:
- z i : i-е нормализованное значение в наборе данных
- x i : i-е значение набора данных
- min(x) : минимальное значение в наборе данных.
- max(x): максимальное значение в наборе данных.
Например, предположим, что у нас есть следующий набор данных:
Минимальное значение в наборе данных — 13, а максимальное — 71.
Чтобы нормализовать первое значение 13 , мы бы применили ранее использованную формулу:
- z i = (x i – min(x)) / (max(x) – min(x)) = (13 – 13) / (71 – 13) = 0
Чтобы нормализовать второе значение 16 , мы будем использовать ту же формулу:
- z i = (x i – min(x)) / (max(x) – min(x)) = (16 – 13) / (71 – 13) = 0,0517
Чтобы нормализовать третье значение 19 , мы будем использовать ту же формулу:
- z i = (x i – min(x)) / (max(x) – min(x)) = (19 – 13) / (71 – 13) = 0,1034
Мы можем использовать ту же самую формулу для нормализации каждого значения в исходном наборе данных между 0 и 1:
Используя этот метод нормализации, следующие утверждения всегда будут истинными:
- Нормализованное значение минимального значения в наборе данных всегда будет равно 0.
- Нормализованное значение максимального значения в наборе данных всегда будет равно 1.
- Нормализованные значения для всех остальных значений в наборе данных будут находиться в диапазоне от 0 до 1.
Когда нормализовать данные
Часто мы стандартизируем переменные, когда проводим какой-либо анализ, в котором у нас есть несколько переменных, измеренных в разных масштабах, и мы хотим, чтобы каждая из переменных имела один и тот же диапазон.
Это предотвращает неправомерное влияние одной переменной, особенно если она измеряется в разных единицах измерения (т. е. если одна переменная измеряется в дюймах, а другая в ярдах).
Также стоит отметить, что в этом уроке мы использовали метод, известный как нормализация min-max, для нормализации значений данных.
Два наиболее распространенных метода нормализации:
1. Нормализация Min-Max
- Цель: Преобразует каждое значение данных в значение от 0 до 100.
- Формула: Новое значение = (значение – мин) / (макс – мин) * 100
2. Нормализация средней
- Цель: Масштабирует значения таким образом, чтобы среднее значение всех значений было равно 0 и стандартному. разработчик это 1.
- Формула: Новое значение = (значение – среднее) / (стандартное отклонение)
Дополнительные ресурсы
В следующих руководствах объясняется, как нормализовать данные с помощью различного статистического программного обеспечения:
Как нормализовать данные в Excel
Как нормализовать данные в R
Как нормализовать столбцы в Python