Hoe gegevens tussen 0 en 100 te normaliseren
Om waarden in een dataset tussen 0 en 100 te normaliseren, kun je de volgende formule gebruiken:
z ik = (x ik – min(x)) / (max(x) – min(x)) * 100
Goud:
- z i : de i-de genormaliseerde waarde in de dataset
- x i : de i- de waarde van de dataset
- min(x) : De minimumwaarde in de gegevensset
- max(x): De maximale waarde in de gegevensset
Stel dat we bijvoorbeeld de volgende gegevensset hebben:
De minimumwaarde in de dataset is 12 en de maximumwaarde is 68.
Om de eerste waarde van 12 te normaliseren, zouden we de eerder gedeelde formule toepassen:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 100 = (12 – 12) / (68 – 12) * 100 = 0
Om de tweede waarde van 19 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 100 = (19 – 12) / (68 – 12) * 100 = 12,5
Om de derde waarde van 21 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 100 = (21 – 12) / (68 – 12) * 100 = 16,07
We kunnen exact dezelfde formule gebruiken om elke waarde in de originele dataset tussen 0 en 100 te normaliseren:
Hoe gegevens tussen elk bereik te normaliseren
We kunnen deze formule feitelijk gebruiken om een dataset tussen 0 en een willekeurig getal te normaliseren:
z ik = (x ik – min(x)) / (max(x) – min(x)) * Q
waarbij Q het maximale aantal is dat gewenst is voor uw genormaliseerde gegevenswaarden.
In het vorige voorbeeld hebben we ervoor gekozen dat Q 100 is, maar we kunnen gemakkelijk een reeks gegevenswaarden tussen 0 en 1000 normaliseren door Q 1000 te kiezen:
Om de eerste waarde van 12 te normaliseren, passen we de formule toe:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 1000 = (12 – 12) / (68 – 12) * 100 = 0
Om de tweede waarde van 19 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 1000 = (19 – 12) / (68 – 12) * 100 = 125
Om de derde waarde van 21 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) * 1.000 = (21 – 12) / (68 – 12) * 100 = 160,7
We kunnen exact dezelfde formule gebruiken om elke waarde in de originele dataset tussen 0 en 1000 te normaliseren:
Wanneer gegevens normaliseren?
Soms standaardiseren we variabelen wanneer we een bepaald type analyse uitvoeren waarbij we meerdere variabelen op verschillende schalen laten meten en we willen dat elk van de variabelen hetzelfde bereik heeft.
Dit voorkomt dat één variabele ongepaste invloed heeft, vooral als deze in verschillende eenheden wordt gemeten (dat wil zeggen als de ene variabele in inches en de andere in yards wordt gemeten).
Het is ook vermeldenswaard dat we in deze zelfstudie een methode hebben gebruikt die bekend staat als min-max-normalisatie om de gegevenswaarden te normaliseren.
De twee meest voorkomende normalisatiemethoden zijn:
1. Min-Max-normalisatie
- Doel: Converteert elke gegevenswaarde naar een waarde tussen 0 en 100.
- Formule: Nieuwe waarde = (waarde – min) / (max – min) * 100
2. Gemiddelde normalisatie
- Doel: Schaalt waarden zodanig dat het gemiddelde van alle waarden 0 en std is. ontwikkelaar is 1.
- Formule: Nieuwe waarde = (waarde – gemiddelde) / (standaardafwijking)
Aanvullende bronnen
Hoe gegevens tussen 0 en 1 te normaliseren
Hoe gegevens in Excel te normaliseren
Hoe gegevens in R te normaliseren
Hoe kolommen in Python te normaliseren