So zentrieren sie daten in python: mit beispielen
Beim Zentrieren eines Datensatzes wird der Mittelwert jeder einzelnen Beobachtung im Datensatz subtrahiert.
Sobald Sie einen Datensatz zentrieren, wird der Durchschnittswert des Datensatzes Null.
Die folgenden Beispiele zeigen, wie man Daten in Python zentriert.
Beispiel 1: Zentrieren Sie die Werte eines NumPy-Arrays
Angenommen, wir haben das folgende NumPy-Array:
import numpy as np #create NumPy array data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21]) #display mean of array print ( data.mean ()) 14.0
Wir können eine Funktion definieren, um den durchschnittlichen Array-Wert von jeder einzelnen Beobachtung zu subtrahieren:
#create function to data center
center_function = lambda x: x - x. mean ()
#apply function to original NumPy array
data_centered = center_function(data)
#view updated Array
print (data_centered)
array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])
Die resultierenden Werte sind die zentrierten Werte des Datensatzes.
Da der Mittelwert der Originaltabelle 14 betrug, subtrahierte diese Funktion einfach 14 von jedem einzelnen Wert in der Originaltabelle.
Zum Beispiel:
- 1. Wert des zentrierten Arrays = 4 – 14 = -10
- 2. Wert des zentrierten Arrays = 6 – 14 = -8
- 3. Wert im zentrierten Array = 9 – 14 = -5
Und so weiter.
Wir können auch überprüfen, ob der Mittelwert der zentrierten Tabelle Null ist:
#display mean of centered array print ( data_centered.mean ()) 0.0
Beispiel 2: Zentrieren Sie die Spalten eines Pandas DataFrame
Angenommen, wir haben den folgenden Pandas-DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9], ' y ': [7, 7, 8, 8, 8, 9, 12], ' z ': [3, 3, 4, 4, 6, 7, 7]}) #view DataFrame print (df) X Y Z 0 1 7 3 1 4 7 3 2 5 8 4 3 6 8 4 4 6 8 6 5 8 9 7 6 9 12 7
Wir können die Funktion pandas apply() verwenden, um die Werte jeder Spalte im DataFrame zu zentrieren:
#center the values in each column of the DataFrame df_centered = df. apply ( lambda x: xx.mean ()) #view centered DataFrame print (df_centered) X Y Z 0 -4.571429 -1.428571 -1.857143 1 -1.571429 -1.428571 -1.857143 2 -0.571429 -0.428571 -0.857143 3 0.428571 -0.428571 -0.857143 4 0.428571 -0.428571 1.142857 5 2.428571 0.571429 2.142857 6 3.428571 3.571429 2.142857
Wir können dann überprüfen, ob der Durchschnittswert jeder Spalte Null ist:
#display mean of each column in the DataFrame df_centered. mean () x 2.537653e-16 y-2.537653e-16 z 3.806479e-16 dtype:float64
Spaltendurchschnitte werden in wissenschaftlicher Notation angezeigt, aber jeder Wert ist im Wesentlichen Null.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere gängige Vorgänge in Python ausführen:
So berechnen Sie einen getrimmten Mittelwert in Python
So berechnen Sie den mittleren quadratischen Fehler (MSE) in Python
So berechnen Sie den Durchschnitt ausgewählter Spalten in Pandas