Hoe u een getrimd gemiddelde in python kunt berekenen (met voorbeelden)


Een getrimd gemiddelde is het gemiddelde van een dataset dat is berekend na het verwijderen van een specifiek percentage van de kleinste en grootste waarden in de dataset.

De eenvoudigste manier om een getrimd gemiddelde in Python te berekenen, is door de functie trim_mean() uit de SciPy-bibliotheek te gebruiken.

Deze functie gebruikt de volgende basissyntaxis:

 from scipy import stats

#calculate 10% trimmed mean
stats. trim_mean (data, 0.1 )

De volgende voorbeelden laten zien hoe u deze functie kunt gebruiken om in de praktijk een getrimd gemiddelde te berekenen.

Voorbeeld 1: Bereken het getrimde gemiddelde van de tabel

De volgende code laat zien hoe u een 10% bijgesneden gemiddelde voor een gegevenstabel kunt berekenen:

 from scipy import stats

#define data
data = [22, 25, 29, 11, 14, 18, 13, 13, 17, 11, 8, 8, 7, 12, 15, 6, 8, 7, 9, 12]

#calculate 10% trimmed mean
stats. trim_mean (data, 0.1 )

12,375

Het 10% getrimde gemiddelde is 12,375 .

Dit is het gemiddelde van de dataset nadat de kleinste 10% en de grootste 10% van de waarden uit de dataset zijn verwijderd.

Voorbeeld 2: Bereken het getrimde gemiddelde van de kolom in panda’s

De volgende code laat zien hoe u een bijgesneden gemiddelde van 5% berekent voor een specifieke kolom in een Panda’s DataFrame:

 from scipy import stats
import pandas as pd

#define DataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})


#calculate 5% trimmed mean of points
stats. trim_mean (df. points , 0.05 ) 

20.25

Het 5% getrimde gemiddelde van de waarden in de kolom “punten” is 20,25 .

Dit is het gemiddelde van de kolom “punten” na het verwijderen van de 5% kleinste en 5% grootste waarden.

Voorbeeld 3: Bereken het getrimde gemiddelde van meerdere kolommen

De volgende code laat zien hoe u een bijgesneden gemiddelde van 5% berekent voor meerdere kolommen in een pandas DataFrame:

 from scipy import stats
import pandas as pd

#define DataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})


#calculate 5% trimmed mean of 'points' and 'assists' columns
stats. trim_mean (df[[' points ', ' assists ']], 0.05 )

array([20.25, 7.75])

Uit het resultaat kunnen we zien:

  • Het 5% getrimde gemiddelde van de “punten”-kolom is 20,25 .
  • Het 5% getrimde gemiddelde van de kolom ‘assisten’ is 7,75 .

Opmerking : u kunt hier de volledige documentatie voor de trim_mean() functie vinden.

Aanvullende bronnen

Hoe u handmatig een getrimd gemiddelde kunt berekenen
Bijgesneden gemiddelde rekenmachine

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert