Come eseguire l'analisi univariata in python: con esempi
Il termine analisi univariata si riferisce all’analisi di una variabile. Puoi ricordarlo perché il prefisso “uni” significa “uno”.
Esistono tre modi comuni per eseguire l’analisi univariata su una variabile:
1. Statistiche riassuntive : misura il centro e la distribuzione dei valori.
2. Tabella delle frequenze : descrive la frequenza con cui compaiono valori diversi.
3. Grafici – Utilizzati per visualizzare la distribuzione dei valori.
Questo tutorial fornisce un esempio di come eseguire analisi univariate con il seguente DataFrame panda:
import pandas as pd #createDataFrame df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]}) #view first five rows of DataFrame df. head () points assists rebounds 0 1.0 5 11 1 1.0 7 8 2 2.0 7 10 3 3.5 9 6 4 4.0 12 6
1. Calcola statistiche riassuntive
Possiamo utilizzare la seguente sintassi per calcolare varie statistiche riassuntive per la variabile “punti” nel DataFrame:
#calculate mean of 'points' df[' points ']. mean () 5.706666666666667 #calculate median of 'points' df[' points ']. median () 5.0 #calculate standard deviation of 'points' df[' points ']. std () 3.858287308169384
2. Crea una tabella di frequenza
Possiamo usare la seguente sintassi per creare una tabella di frequenza per la variabile “punti”:
#create frequency table for 'points' df[' points ']. value_counts () 4.0 3 1.0 2 5.0 2 2.0 1 3.5 1 6.5 1 7.0 1 7.4 1 8.0 1 13.0 1 14.2 1 Name: points, dtype: int64
Questo ci dice che:
- Il valore 4 appare 3 volte
- Il valore 1 appare due volte
- Il valore 5 appare due volte
- Il valore 2 appare 1 volta
E così via.
Correlato: Come creare tabelle di frequenza in Python
3. Crea grafici
Possiamo usare la seguente sintassi per creare un boxplot per la variabile ‘points’:
import matplotlib. pyplot as plt df. boxplot (column=[' points '], grid= False , color=' black ')
Correlato: Come creare un boxplot da Pandas DataFrame
Possiamo usare la seguente sintassi per creare un istogramma per la variabile ‘punti’:
import matplotlib. pyplot as plt df. hist (column=' points ', grid= False , edgecolor=' black ')
Correlato: Come creare un istogramma da Pandas DataFrame
Possiamo usare la seguente sintassi per creare una curva di densità per la variabile “punti”:
import seaborn as sns sns. kdeplot (df[' points '])
Correlato: Come creare un grafico della densità in Matplotlib
Ciascuno di questi grafici ci offre un modo unico di visualizzare la distribuzione dei valori della variabile “punti”.