Comment effectuer une analyse univariée en Python : avec des exemples



Le terme analyse univariée fait référence à l’analyse d’une variable. Vous pouvez vous en souvenir car le préfixe « uni » signifie « un ».

Il existe trois manières courantes d’effectuer une analyse univariée sur une variable :

1. Statistiques récapitulatives – Mesure le centre et la répartition des valeurs.

2. Tableau de fréquence – Décrit la fréquence à laquelle différentes valeurs apparaissent.

3. Graphiques – Utilisé pour visualiser la distribution des valeurs.

Ce didacticiel fournit un exemple de la manière d’effectuer une analyse univariée avec le DataFrame pandas suivant :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'points': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df.head()

	points	assists	rebounds
0	1.0	5	11
1	1.0	7	8
2	2.0	7	10
3	3.5	9	6
4	4.0	12	6

1. Calculer les statistiques récapitulatives

Nous pouvons utiliser la syntaxe suivante pour calculer diverses statistiques récapitulatives pour la variable « points » dans le DataFrame :

#calculate mean of 'points'
df['points'].mean()

5.706666666666667

#calculate median of 'points' 
df['points'].median() 

5.0

#calculate standard deviation of 'points'
df['points'].std() 

3.858287308169384

2. Créer un tableau de fréquence

Nous pouvons utiliser la syntaxe suivante pour créer un tableau de fréquences pour la variable ‘points’ :

#create frequency table for 'points'
df['points'].value_counts()

4.0     3
1.0     2
5.0     2
2.0     1
3.5     1
6.5     1
7.0     1
7.4     1
8.0     1
13.0    1
14.2    1
Name: points, dtype: int64

Cela nous dit que :

  • La valeur 4 apparaît 3 fois
  • La valeur 1 apparaît 2 fois
  • La valeur 5 apparaît 2 fois
  • La valeur 2 apparaît 1 fois

Et ainsi de suite.

Connexe : Comment créer des tableaux de fréquences en Python

3. Créer des graphiques

Nous pouvons utiliser la syntaxe suivante pour créer un boxplot pour la variable ‘points’ :

import matplotlib.pyplot as plt

df.boxplot(column=['points'], grid=False, color='black')

Connexe : Comment créer un boxplot à partir de Pandas DataFrame

Nous pouvons utiliser la syntaxe suivante pour créer un histogramme pour la variable ‘points’ :

import matplotlib.pyplot as plt

df.hist(column='points', grid=False, edgecolor='black')

Connexe : Comment créer un histogramme à partir de Pandas DataFrame

Nous pouvons utiliser la syntaxe suivante pour créer une courbe de densité pour la variable « points » :

import seaborn as sns

sns.kdeplot(df['points'])

Connexe : Comment créer un tracé de densité dans Matplotlib

Chacun de ces graphiques nous offre une manière unique de visualiser la distribution des valeurs de la variable « points ».

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *