Come eseguire l'analisi univariata in python: con esempi


Il termine analisi univariata si riferisce all’analisi di una variabile. Puoi ricordarlo perché il prefisso “uni” significa “uno”.

Esistono tre modi comuni per eseguire l’analisi univariata su una variabile:

1. Statistiche riassuntive : misura il centro e la distribuzione dei valori.

2. Tabella delle frequenze : descrive la frequenza con cui compaiono valori diversi.

3. Grafici – Utilizzati per visualizzare la distribuzione dei valori.

Questo tutorial fornisce un esempio di come eseguire analisi univariate con il seguente DataFrame panda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df. head ()

	points assists rebounds
0 1.0 5 11
1 1.0 7 8
2 2.0 7 10
3 3.5 9 6
4 4.0 12 6

1. Calcola statistiche riassuntive

Possiamo utilizzare la seguente sintassi per calcolare varie statistiche riassuntive per la variabile “punti” nel DataFrame:

 #calculate mean of 'points'
df[' points ']. mean ()

5.706666666666667

#calculate median of 'points' 
df[' points ']. median () 

5.0

#calculate standard deviation of 'points'
df[' points ']. std () 

3.858287308169384

2. Crea una tabella di frequenza

Possiamo usare la seguente sintassi per creare una tabella di frequenza per la variabile “punti”:

 #create frequency table for 'points'
df[' points ']. value_counts ()

4.0 3
1.0 2
5.0 2
2.0 1
3.5 1
6.5 1
7.0 1
7.4 1
8.0 1
13.0 1
14.2 1
Name: points, dtype: int64

Questo ci dice che:

  • Il valore 4 appare 3 volte
  • Il valore 1 appare due volte
  • Il valore 5 appare due volte
  • Il valore 2 appare 1 volta

E così via.

Correlato: Come creare tabelle di frequenza in Python

3. Crea grafici

Possiamo usare la seguente sintassi per creare un boxplot per la variabile ‘points’:

 import matplotlib. pyplot as plt

df. boxplot (column=[' points '], grid= False , color=' black ')

Correlato: Come creare un boxplot da Pandas DataFrame

Possiamo usare la seguente sintassi per creare un istogramma per la variabile ‘punti’:

 import matplotlib. pyplot as plt

df. hist (column=' points ', grid= False , edgecolor=' black ')

Correlato: Come creare un istogramma da Pandas DataFrame

Possiamo usare la seguente sintassi per creare una curva di densità per la variabile “punti”:

 import seaborn as sns

sns. kdeplot (df[' points '])

Correlato: Come creare un grafico della densità in Matplotlib

Ciascuno di questi grafici ci offre un modo unico di visualizzare la distribuzione dei valori della variabile “punti”.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *