So berechnen sie die absolute mittlere abweichung in python
Die mittlere absolute Abweichung misst die Verteilung der Beobachtungen in einem Datensatz.
Dies ist ein besonders nützliches Maß, da es weniger von Ausreißern beeinflusst wird als andere Streuungsmaße wie Standardabweichung und Varianz.
Die Formel zur Berechnung der absoluten mittleren Abweichung, oft als MAD abgekürzt, lautet:
MAD = Median (|x i – x m |)
Gold:
- x i : der i-te Wert des Datensatzes
- x m : Der Medianwert im Datensatz
Die folgenden Beispiele zeigen, wie die mittlere absolute Abweichung in Python mithilfe der Funktion „statsmodels mad“ berechnet wird.
Beispiel 1: Berechnen Sie den MAD für eine Tabelle
Der folgende Code zeigt, wie die mittlere absolute Abweichung für ein einzelnes NumPy-Array in Python berechnet wird:
import numpy as np from statsmodels import robust #define data data = np. array ([1, 4, 4, 7, 12, 13, 16, 19, 22, 24]) #calculate MAD robust. mad (data) 11.1195
Die mittlere absolute Abweichung für den Datensatz beträgt 11,1195 .
Es ist wichtig zu beachten, dass die zur Berechnung des MAD verwendete Formel eine robuste Schätzung der Standardabweichung unter der Annahme einer Normalverteilung berechnet, indem das Ergebnis um einen Faktor von etwa 0,67 skaliert wird.
Um die Verwendung dieses Skalierungsfaktors zu vermeiden, setzen Sie einfach c = 1 wie folgt:
#calculate MAD without scaling factor robust. mad (data, c=1) 7.5
Beispiel 2: Berechnen Sie MAD für einen DataFrame
Der folgende Code zeigt, wie MAD für eine einzelne Spalte in einem Pandas-DataFrame berechnet wird:
#make this example reproducible n.p. random . seeds (1) #create pandas DataFrame data = pd. DataFrame ( np.random.randint (0,10,size=(5,3)),columns = [' A ',' B ',' C ']) #view DataFrame data A B C 0 5 8 9 1 5 0 0 2 1 7 6 3 9 2 4 4 5 2 4 #calculate MAD for column B data[[' B ']]. apply (robust. mad ) B 2.965204 dtype:float64
Die absolute mittlere Abweichung für Spalte B beträgt 2,965204 .
Wir können eine ähnliche Syntax verwenden, um MAD für mehrere Spalten im Pandas DataFrame zu berechnen:
#calculate MAD for all columns
data[[' A ',' B ',' C ']]. apply (robust. mad )
At 0.000000
B 2.965204
C 2.965204
dtype:float64
Die absolute mittlere Abweichung beträgt 0 für Spalte A, 2,965204 für Spalte B und 2,965204 für Spalte C.
Zusätzliche Ressourcen
So berechnen Sie MAPE in Python
So berechnen Sie SMAPE in Python
So berechnen Sie RMSE in Python