Python でデータを標準化する方法: 例付き

によるベンジャミン・アンダーソン博士 7月 24, 2023 ガイド 0コメント

データセットの標準化とは、平均値が 0、標準偏差が 1 になるようにデータセット内のすべての値をスケーリングすることを意味します。

次の式を使用して、データセット内の値を正規化します。

x_新しい= (x _i – x ) / s

金：

x _i : データセットの^{i 番目の}値
x : サンプルの意味
s : サンプルの標準偏差

次の構文を使用すると、Python の pandas DataFrame 内のすべての列をすばやく正規化できます。

 (df- df.mean ())/df. std ()

次の例は、この構文を実際に使用する方法を示しています。

例 1: すべての DataFrame 列を標準化する

次のコードは、pandas DataFrame 内のすべての列を標準化する方法を示しています。

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#standardize the values in each column
df_new = (df- df.mean ())/df. std ()

#view new data frame
df_new

	        y x1 x2 x3
0 -1.418032 -1.078639 1.025393 -0.908151
1 -0.857822 -0.294174 -0.146485 -0.908151
2 -0.437664 -0.294174 0.634767 -0.525772
3 -0.577717 0.490290 -0.927736 -0.908151
4 0.122546 1.666987 -0.927736 0.238987
5 0.682756 0.490290 -1.318362 0.238987
6 0.962861 0.490290 0.244141 1.003746
7 1.523071 -1.470871 1.416019 1.768505

各列の平均と標準偏差がそれぞれ 0 と 1 に等しいことを確認できます。

 #view mean of each column
df_new. mean ()

y 0.000000e+00
x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each column
df_new. std ()

y 1.0
x1 1.0
x2 1.0
x3 1.0
dtype:float64

例 2: 特定の DataFrame 列を正規化する

DataFrame 内の特定の列のみを正規化したい場合があります。

たとえば、多くの機械学習アルゴリズムでは、特定のモデルをデータに適合させる前に、予測変数のみを標準化する必要がある場合があります。

次のコードは、pandas DataFrame の特定の列を標準化する方法を示しています。

 import pandas as pd

#create data frame
df = pd. DataFrame ({' y ': [8, 12, 15, 14, 19, 23, 25, 29],
                   ' x1 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' x2 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' x3 ': [2, 2, 3, 2, 5, 5, 7, 9]})

#view data frame
df

	y x1 x2 x3
0 8 5 11 2
1 12 7 8 2
2 15 7 10 3
3 14 9 6 2
4 19 12 6 5
5 23 9 5 5
6 25 9 9 7
7 29 4 12 9

#define predictor variable columns
df_x = df[[' x1 ', ' x2 ', ' x3 ']]

#standardize the values for each predictor variable
df[[' x1 ',' x2 ',' x3 ']] = (df_x- df_x.mean ())/df_x. std ()

#view new data frame
df

         y x1 x2 x3
0 8 -1.078639 1.025393 -0.908151
1 12 -0.294174 -0.146485 -0.908151
2 15 -0.294174 0.634767 -0.525772
3 14 0.490290 -0.927736 -0.908151
4 19 1.666987 -0.927736 0.238987
5 23 0.490290 -1.318362 0.238987
6 25 0.490290 0.244141 1.003746
7 29 -1.470871 1.416019 1.768505

列「y」は変更されませんが、列「x1」、「x2」、および「x3」はすべて標準化されていることに注意してください。

予測子変数の各列の平均と標準偏差がそれぞれ 0 と 1 に等しいことを確認できます。

 #view mean of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. mean ()

x1 2.775558e-17
x2 -4.163336e-17
x3 5.551115e-17
dtype:float64

#view standard deviation of each predictor variable column
df[[' x1 ', ' x2 ', ' x3 ']]. std ()

x1 1.0
x2 1.0
x3 1.0
dtype:float64

追加リソース

Pandas DataFrame の列を正規化する方法
 Python で外れ値を削除する方法
 標準化と正規化: 違いは何ですか?

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る

例 1: すべての DataFrame 列を標準化する

例 2: 特定の DataFrame 列を正規化する

追加リソース

著者について

ベンジャミン・アンダーソン博士

コメントを追加する