So führen sie eine univariate analyse in python durch: mit beispielen
Der Begriff univariate Analyse bezieht sich auf die Analyse einer Variablen. Sie können sich das merken, denn das Präfix „uni“ bedeutet „eins“.
Es gibt drei gängige Methoden zur Durchführung einer univariaten Analyse einer Variablen:
1. Zusammenfassungsstatistik – Misst die Mitte und Verteilung der Werte.
2. Häufigkeitstabelle – Beschreibt, wie oft unterschiedliche Werte auftreten.
3. Diagramme – werden zur Visualisierung der Werteverteilung verwendet.
Dieses Tutorial bietet ein Beispiel für die Durchführung einer univariaten Analyse mit dem folgenden Pandas DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]}) #view first five rows of DataFrame df. head () points assists rebounds 0 1.0 5 11 1 1.0 7 8 2 2.0 7 10 3 3.5 9 6 4 4.0 12 6
1. Berechnen Sie zusammenfassende Statistiken
Mit der folgenden Syntax können wir verschiedene zusammenfassende Statistiken für die Variable „points“ im DataFrame berechnen:
#calculate mean of 'points' df[' points ']. mean () 5.706666666666667 #calculate median of 'points' df[' points ']. median () 5.0 #calculate standard deviation of 'points' df[' points ']. std () 3.858287308169384
2. Erstellen Sie eine Häufigkeitstabelle
Mit der folgenden Syntax können wir eine Häufigkeitstabelle für die Variable „points“ erstellen:
#create frequency table for 'points' df[' points ']. value_counts () 4.0 3 1.0 2 5.0 2 2.0 1 3.5 1 6.5 1 7.0 1 7.4 1 8.0 1 13.0 1 14.2 1 Name: points, dtype: int64
Dies sagt uns Folgendes:
- Der Wert 4 erscheint dreimal
- Der Wert 1 erscheint zweimal
- Der Wert 5 erscheint zweimal
- Der Wert 2 erscheint 1 Mal
Und so weiter.
Verwandte Themen: So erstellen Sie Häufigkeitstabellen in Python
3. Erstellen Sie Diagramme
Wir können die folgende Syntax verwenden, um einen Boxplot für die Variable „points“ zu erstellen:
import matplotlib. pyplot as plt df. boxplot (column=[' points '], grid= False , color=' black ')
Verwandte Themen: So erstellen Sie einen Boxplot aus Pandas DataFrame
Mit der folgenden Syntax können wir ein Histogramm für die Variable „points“ erstellen:
import matplotlib. pyplot as plt df. hist (column=' points ', grid= False , edgecolor=' black ')
Verwandte Themen: So erstellen Sie ein Histogramm aus Pandas DataFrame
Mit der folgenden Syntax können wir eine Dichtekurve für die Variable „points“ erstellen:
import seaborn as sns sns. kdeplot (df[' points '])
Verwandte Themen: So erstellen Sie ein Dichtediagramm in Matplotlib
Jedes dieser Diagramme bietet uns eine einzigartige Möglichkeit, die Werteverteilung der Variablen „Punkte“ zu visualisieren.