So zentrieren sie daten in python: mit beispielen


Beim Zentrieren eines Datensatzes wird der Mittelwert jeder einzelnen Beobachtung im Datensatz subtrahiert.

Sobald Sie einen Datensatz zentrieren, wird der Durchschnittswert des Datensatzes Null.

Die folgenden Beispiele zeigen, wie man Daten in Python zentriert.

Beispiel 1: Zentrieren Sie die Werte eines NumPy-Arrays

Angenommen, wir haben das folgende NumPy-Array:

 import numpy as np

#create NumPy array
data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21])

#display mean of array
print ( data.mean ())

14.0

Wir können eine Funktion definieren, um den durchschnittlichen Array-Wert von jeder einzelnen Beobachtung zu subtrahieren:

 #create function to data center
center_function = lambda x: x - x. mean ()

#apply function to original NumPy array
data_centered = center_function(data)

#view updated Array
print (data_centered)

array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])

Die resultierenden Werte sind die zentrierten Werte des Datensatzes.

Da der Mittelwert der Originaltabelle 14 betrug, subtrahierte diese Funktion einfach 14 von jedem einzelnen Wert in der Originaltabelle.

Zum Beispiel:

  • 1. Wert des zentrierten Arrays = 4 – 14 = -10
  • 2. Wert des zentrierten Arrays = 6 – 14 = -8
  • 3. Wert im zentrierten Array = 9 – 14 = -5

Und so weiter.

Wir können auch überprüfen, ob der Mittelwert der zentrierten Tabelle Null ist:

 #display mean of centered array
print ( data_centered.mean ())

0.0

Beispiel 2: Zentrieren Sie die Spalten eines Pandas DataFrame

Angenommen, wir haben den folgenden Pandas-DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9],
                   ' y ': [7, 7, 8, 8, 8, 9, 12],
                   ' z ': [3, 3, 4, 4, 6, 7, 7]})

#view DataFrame
print (df)

   X Y Z
0 1 7 3
1 4 7 3
2 5 8 4
3 6 8 4
4 6 8 6
5 8 9 7
6 9 12 7

Wir können die Funktion pandas apply() verwenden, um die Werte jeder Spalte im DataFrame zu zentrieren:

 #center the values in each column of the DataFrame
df_centered = df. apply ( lambda x: xx.mean ())

#view centered DataFrame
print (df_centered)

	        X Y Z
0 -4.571429 -1.428571 -1.857143
1 -1.571429 -1.428571 -1.857143
2 -0.571429 -0.428571 -0.857143
3 0.428571 -0.428571 -0.857143
4 0.428571 -0.428571 1.142857
5 2.428571 0.571429 2.142857
6 3.428571 3.571429 2.142857 

Wir können dann überprüfen, ob der Durchschnittswert jeder Spalte Null ist:

 #display mean of each column in the DataFrame
df_centered. mean ()

x 2.537653e-16
y-2.537653e-16
z 3.806479e-16
dtype:float64

Spaltendurchschnitte werden in wissenschaftlicher Notation angezeigt, aber jeder Wert ist im Wesentlichen Null.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere gängige Vorgänge in Python ausführen:

So berechnen Sie einen getrimmten Mittelwert in Python
So berechnen Sie den mittleren quadratischen Fehler (MSE) in Python
So berechnen Sie den Durchschnitt ausgewählter Spalten in Pandas

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert