Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment effectuer une analyse univariée en Python : avec des exemples



Le terme analyse univariée fait référence à l’analyse d’une variable. Vous pouvez vous en souvenir car le préfixe « uni » signifie « un ».

Il existe trois manières courantes d’effectuer une analyse univariée sur une variable :

1. Statistiques récapitulatives – Mesure le centre et la répartition des valeurs.

2. Tableau de fréquence – Décrit la fréquence à laquelle différentes valeurs apparaissent.

3. Graphiques – Utilisé pour visualiser la distribution des valeurs.

Ce didacticiel fournit un exemple de la manière d’effectuer une analyse univariée avec le DataFrame pandas suivant :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'points': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df.head()

	points	assists	rebounds
0	1.0	5	11
1	1.0	7	8
2	2.0	7	10
3	3.5	9	6
4	4.0	12	6

1. Calculer les statistiques récapitulatives

Nous pouvons utiliser la syntaxe suivante pour calculer diverses statistiques récapitulatives pour la variable « points » dans le DataFrame :

#calculate mean of 'points'
df['points'].mean()

5.706666666666667

#calculate median of 'points' 
df['points'].median() 

5.0

#calculate standard deviation of 'points'
df['points'].std() 

3.858287308169384

2. Créer un tableau de fréquence

Nous pouvons utiliser la syntaxe suivante pour créer un tableau de fréquences pour la variable ‘points’ :

#create frequency table for 'points'
df['points'].value_counts()

4.0     3
1.0     2
5.0     2
2.0     1
3.5     1
6.5     1
7.0     1
7.4     1
8.0     1
13.0    1
14.2    1
Name: points, dtype: int64

Cela nous dit que :

  • La valeur 4 apparaît 3 fois
  • La valeur 1 apparaît 2 fois
  • La valeur 5 apparaît 2 fois
  • La valeur 2 apparaît 1 fois

Et ainsi de suite.

Connexe : Comment créer des tableaux de fréquences en Python

3. Créer des graphiques

Nous pouvons utiliser la syntaxe suivante pour créer un boxplot pour la variable ‘points’ :

import matplotlib.pyplot as plt

df.boxplot(column=['points'], grid=False, color='black')

Connexe : Comment créer un boxplot à partir de Pandas DataFrame

Nous pouvons utiliser la syntaxe suivante pour créer un histogramme pour la variable ‘points’ :

import matplotlib.pyplot as plt

df.hist(column='points', grid=False, edgecolor='black')

Connexe : Comment créer un histogramme à partir de Pandas DataFrame

Nous pouvons utiliser la syntaxe suivante pour créer une courbe de densité pour la variable « points » :

import seaborn as sns

sns.kdeplot(df['points'])

Connexe : Comment créer un tracé de densité dans Matplotlib

Chacun de ces graphiques nous offre une manière unique de visualiser la distribution des valeurs de la variable « points ».

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *