Python'da veri nasıl ortalanır: örneklerle
Bir veri setini ortalamak, veri setindeki her bir gözlemin ortalama değerini çıkarmak anlamına gelir.
Bir veri kümesini ortaladığınızda veri kümesinin ortalama değeri sıfır olur.
Aşağıdaki örnekler Python’da verilerin nasıl merkezleneceğini gösterir.
Örnek 1: Bir NumPy dizisinin değerlerini ortalayın
Aşağıdaki NumPy dizisine sahip olduğumuzu varsayalım:
import numpy as np #create NumPy array data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21]) #display mean of array print ( data.mean ()) 14.0
Her bir gözlemden ortalama dizi değerini çıkaracak bir fonksiyon tanımlayabiliriz:
#create function to data center
center_function = lambda x: x - x. mean ()
#apply function to original NumPy array
data_centered = center_function(data)
#view updated Array
print (data_centered)
array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])
Ortaya çıkan değerler veri kümesinin ortalanmış değerleridir.
Orijinal tablonun ortalaması 14 olduğundan, bu işlev orijinal tablodaki her bir değerden basitçe 14’ü çıkardı.
Örneğin:
- Ortalanmış dizinin 1. değeri = 4 – 14 = -10
- Ortalanmış dizinin 2. değeri = 6 – 14 = -8
- Ortalanmış dizide 3. değer = 9 – 14 = -5
Ve benzeri.
Ayrıca ortalanmış tablonun ortalamasının sıfır olup olmadığını da kontrol edebiliriz:
#display mean of centered array print ( data_centered.mean ()) 0.0
Örnek 2: Pandas DataFrame’in sütunlarını ortalayın
Aşağıdaki pandalara sahip olduğumuzu varsayalım DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9], ' y ': [7, 7, 8, 8, 8, 9, 12], ' z ': [3, 3, 4, 4, 6, 7, 7]}) #view DataFrame print (df) X Y Z 0 1 7 3 1 4 7 3 2 5 8 4 3 6 8 4 4 6 8 6 5 8 9 7 6 9 12 7
DataFrame’deki her sütunun değerlerini ortalamak için pandas application() işlevini kullanabiliriz:
#center the values in each column of the DataFrame df_centered = df. apply ( lambda x: xx.mean ()) #view centered DataFrame print (df_centered) X Y Z 0 -4.571429 -1.428571 -1.857143 1 -1.571429 -1.428571 -1.857143 2 -0.571429 -0.428571 -0.857143 3 0.428571 -0.428571 -0.857143 4 0.428571 -0.428571 1.142857 5 2.428571 0.571429 2.142857 6 3.428571 3.571429 2.142857
Daha sonra her sütunun ortalama değerinin sıfır olduğunu doğrulayabiliriz:
#display mean of each column in the DataFrame df_centered. mean () x 2.537653e-16 y-2.537653e-16 z 3.806479e-16 dtype:float64
Sütun ortalamaları bilimsel gösterimle görüntülenir, ancak her değer aslında sıfırdır.
Ek kaynaklar
Aşağıdaki eğitimlerde Python’da diğer yaygın işlemlerin nasıl gerçekleştirileceği açıklanmaktadır:
Python’da kırpılmış ortalama nasıl hesaplanır
Python’da Ortalama Kare Hatası (MSE) Nasıl Hesaplanır?
Pandalar’da seçilen sütunların ortalaması nasıl hesaplanır?