So berechnen sie den interquartilbereich in python


Der Interquartilbereich , oft „IQR“ genannt, ist eine Möglichkeit , die Verteilung der mittleren 50 % eines Datensatzes zu messen. Sie wird als Differenz zwischen dem ersten Quartil* (dem 25. Perzentil) und dem dritten Quartil (dem 75. Perzentil) eines Datensatzes berechnet.

Glücklicherweise ist es einfach, den Interquartilbereich eines Datensatzes in Python mit der Funktion numpy.percentile() zu berechnen.

Dieses Tutorial zeigt einige Beispiele für die praktische Verwendung dieser Funktion.

Beispiel 1: Interquartilbereich einer Tabelle

Der folgende Code zeigt, wie der Interquartilbereich von Werten in einer einzelnen Tabelle berechnet wird:

 import numpy as np

#define array of data
data = np.array([14, 19, 20, 22, 24, 26, 27, 30, 30, 31, 36, 38, 44, 47])

#calculate interquartile range 
q3, q1 = np. percentile (data, [75,25])
iqr = q3 - q1

#display interquartile range 
iqr

12.25

Der Interquartilbereich dieses Datensatzes beträgt 12,25 . Dies ist die Verteilung der mittleren 50 % der Werte in diesem Datensatz.

Beispiel 2: Interquartilbereich einer Datenrahmenspalte

Der folgende Code zeigt, wie der Interquartilbereich für eine einzelne Spalte in einem Datenrahmen berechnet wird:

 import numpy as np
import pandas as pd

#create data frame
df = pd.DataFrame({'rating': [90, 85, 82, 88, 94, 90, 76, 75, 87, 86],
                   'points': [25, 20, 14, 16, 27, 20, 12, 15, 14, 19],
                   'assists': [5, 7, 7, 8, 5, 7, 6, 9, 9, 5],
                   'rebounds': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]})

#calculate interquartile range of values in the 'points' column
q75, q25 = np. percentile (df['points'], [75,25])
iqr = q75 - q25

#display interquartile range 
iqr

5.75

Der Interquartilbereich der Werte in der Punktespalte beträgt 5,75 .

Beispiel 3: Interquartilbereich mehrerer Datenrahmenspalten

Der folgende Code zeigt, wie der Interquartilbereich mehrerer Spalten in einem Datenrahmen gleichzeitig berechnet wird:

 import numpy as np
import pandas as pd

#create data frame
df = pd.DataFrame({'rating': [90, 85, 82, 88, 94, 90, 76, 75, 87, 86],
                   'points': [25, 20, 14, 16, 27, 20, 12, 15, 14, 19],
                   'assists': [5, 7, 7, 8, 5, 7, 6, 9, 9, 5],
                   'rebounds': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]})

#define function to calculate interquartile range
def find_iqr(x):
  return np. subtract (*np. percentile (x, [75, 25]))

#calculate IQR for 'rating' and 'points' columns
df[[' rating ', ' points ']]. apply (find_iqr)

rating 6.75
points 5.75
dtype:float64

#calculate IQR for all columns
df. apply (find_iqr)

rating 6.75
points 5.75
assists 2.50
rebounds 3.75
dtype:float64

Hinweis: Wir verwenden die Funktion pandas.DataFrame.apply() , um den IQR für mehrere Spalten im obigen Datenrahmen zu berechnen.

Zusätzliche Ressourcen

Wird der Interquartilbereich (IQR) durch Ausreißer beeinflusst?
So berechnen Sie den Interquartilbereich (IQR) in Excel
Interquartilbereichsrechner

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert