So führen sie eine univariate analyse in python durch: mit beispielen


Der Begriff univariate Analyse bezieht sich auf die Analyse einer Variablen. Sie können sich das merken, denn das Präfix „uni“ bedeutet „eins“.

Es gibt drei gängige Methoden zur Durchführung einer univariaten Analyse einer Variablen:

1. Zusammenfassungsstatistik – Misst die Mitte und Verteilung der Werte.

2. Häufigkeitstabelle – Beschreibt, wie oft unterschiedliche Werte auftreten.

3. Diagramme – werden zur Visualisierung der Werteverteilung verwendet.

Dieses Tutorial bietet ein Beispiel für die Durchführung einer univariaten Analyse mit dem folgenden Pandas DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df. head ()

	points assists rebounds
0 1.0 5 11
1 1.0 7 8
2 2.0 7 10
3 3.5 9 6
4 4.0 12 6

1. Berechnen Sie zusammenfassende Statistiken

Mit der folgenden Syntax können wir verschiedene zusammenfassende Statistiken für die Variable „points“ im DataFrame berechnen:

 #calculate mean of 'points'
df[' points ']. mean ()

5.706666666666667

#calculate median of 'points' 
df[' points ']. median () 

5.0

#calculate standard deviation of 'points'
df[' points ']. std () 

3.858287308169384

2. Erstellen Sie eine Häufigkeitstabelle

Mit der folgenden Syntax können wir eine Häufigkeitstabelle für die Variable „points“ erstellen:

 #create frequency table for 'points'
df[' points ']. value_counts ()

4.0 3
1.0 2
5.0 2
2.0 1
3.5 1
6.5 1
7.0 1
7.4 1
8.0 1
13.0 1
14.2 1
Name: points, dtype: int64

Dies sagt uns Folgendes:

  • Der Wert 4 erscheint dreimal
  • Der Wert 1 erscheint zweimal
  • Der Wert 5 erscheint zweimal
  • Der Wert 2 erscheint 1 Mal

Und so weiter.

Verwandte Themen: So erstellen Sie Häufigkeitstabellen in Python

3. Erstellen Sie Diagramme

Wir können die folgende Syntax verwenden, um einen Boxplot für die Variable „points“ zu erstellen:

 import matplotlib. pyplot as plt

df. boxplot (column=[' points '], grid= False , color=' black ')

Verwandte Themen: So erstellen Sie einen Boxplot aus Pandas DataFrame

Mit der folgenden Syntax können wir ein Histogramm für die Variable „points“ erstellen:

 import matplotlib. pyplot as plt

df. hist (column=' points ', grid= False , edgecolor=' black ')

Verwandte Themen: So erstellen Sie ein Histogramm aus Pandas DataFrame

Mit der folgenden Syntax können wir eine Dichtekurve für die Variable „points“ erstellen:

 import seaborn as sns

sns. kdeplot (df[' points '])

Verwandte Themen: So erstellen Sie ein Dichtediagramm in Matplotlib

Jedes dieser Diagramme bietet uns eine einzigartige Möglichkeit, die Werteverteilung der Variablen „Punkte“ zu visualisieren.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert