Hoe gegevens tussen 0 en 1 te normaliseren
Om waarden in een dataset tussen 0 en 1 te normaliseren, kun je de volgende formule gebruiken:
z ik = (x ik – min(x)) / (max(x) – min(x))
Goud:
- z i : de i-de genormaliseerde waarde in de dataset
- x i : de i- de waarde van de dataset
- min(x) : De minimumwaarde in de gegevensset
- max(x): De maximale waarde in de gegevensset
Stel dat we bijvoorbeeld de volgende gegevensset hebben:
De minimumwaarde in de dataset is 13 en de maximumwaarde is 71.
Om de eerste waarde van 13 te normaliseren, zouden we de eerder gedeelde formule toepassen:
- z ik = (x ik – min(x)) / (max(x) – min(x)) = (13 – 13) / (71 – 13) = 0
Om de tweede waarde van 16 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) = (16 – 13) / (71 – 13) = 0,0517
Om de derde waarde van 19 te normaliseren, zouden we dezelfde formule gebruiken:
- z ik = (x ik – min(x)) / (max(x) – min(x)) = (19 – 13) / (71 – 13) = 0,1034
We kunnen exact dezelfde formule gebruiken om elke waarde in de originele dataset tussen 0 en 1 te normaliseren:
Met behulp van deze normalisatiemethode zullen de volgende uitspraken altijd waar zijn:
- De genormaliseerde waarde voor de minimumwaarde in de dataset is altijd 0.
- De genormaliseerde waarde voor de maximale waarde in de dataset is altijd 1.
- Genormaliseerde waarden voor alle andere waarden in de dataset liggen tussen 0 en 1.
Wanneer gegevens normaliseren?
Vaak standaardiseren we variabelen wanneer we een soort analyse uitvoeren waarbij we meerdere variabelen op verschillende schalen laten meten en we willen dat elk van de variabelen hetzelfde bereik heeft.
Dit voorkomt dat één variabele ongepaste invloed heeft, vooral als deze in verschillende eenheden wordt gemeten (dat wil zeggen als de ene variabele in inches en de andere in yards wordt gemeten).
Het is ook vermeldenswaard dat we in deze zelfstudie een methode hebben gebruikt die bekend staat als min-max-normalisatie om de gegevenswaarden te normaliseren.
De twee meest voorkomende normalisatiemethoden zijn:
1. Min-Max-normalisatie
- Doel: Converteert elke gegevenswaarde naar een waarde tussen 0 en 100.
- Formule: Nieuwe waarde = (waarde – min) / (max – min) * 100
2. Gemiddelde normalisatie
- Doel: Schaalt waarden zodanig dat het gemiddelde van alle waarden 0 en std is. ontwikkelaar is 1.
- Formule: Nieuwe waarde = (waarde – gemiddelde) / (standaardafwijking)
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u gegevens kunt normaliseren met behulp van verschillende statistische software:
Hoe gegevens in Excel te normaliseren
Hoe gegevens in R te normaliseren
Hoe kolommen in Python te normaliseren