En statistiques, les données brutes font référence aux données qui ont été collectées directement à partir d’une source primaire et qui n’ont été traitées d’aucune façon. Dans tout type de projet d’analyse de données, la première étape consiste à collecter des...
La corrélation est utilisée pour mesurer l’association linéaire entre deux variables. Un coefficient de corrélation prend toujours une valeur comprise entre -1 et 1 où : -1 indique une corrélation linéaire parfaitement négative entre deux variables 0 indique aucune corrélation linéaire...
Un tracé de série chronologique est utile pour visualiser les valeurs de données qui changent au fil du temps. Ce didacticiel explique comment créer divers tracés de séries chronologiques à l’aide du package de visualisation de données seaborn en Python. Exemple...
Vous pouvez utiliser la syntaxe de base suivante pour créer un histogramme à partir d’un DataFrame pandas : df.hist(column='col_name') Les exemples suivants montrent comment utiliser cette syntaxe dans la pratique. Exemple 1 : tracer un seul histogramme Le code suivant montre comment créer...
Vous pouvez utiliser la fonction fillna() pour remplacer les valeurs NaN dans un DataFrame pandas. Cette fonction utilise la syntaxe de base suivante : #replace NaN values in one column df['col1'] = df['col1'].fillna(0) #replace NaN values in multiple columns df[['col1', 'col2']] =...
Vous pouvez utiliser la syntaxe de base suivante pour ajouter deux DataFrames pandas dans un seul DataFrame : big_df = pd.concat([df1, df2], ignore_index=True) Les exemples suivants montrent comment utiliser cette syntaxe dans la pratique. Exemple 1 : ajouter deux DataFrames Pandas Le code...
Vous pouvez utiliser la syntaxe de base suivante pour diviser un DataFrame pandas en plusieurs DataFrames en fonction du numéro de ligne : #split DataFrame into two DataFrames at row 6 df1 = df.iloc[:6] df2 = df.iloc[6:] Les exemples suivants montrent comment...
La distribution exponentielle est une distribution de probabilité utilisée pour modéliser le temps que nous devons attendre jusqu’à ce qu’un certain événement se produise. Si une variable aléatoire X suit une distribution exponentielle, alors la fonction de densité cumulée de X...
Vous pouvez utiliser la syntaxe de base suivante pour effectuer une RECHERCHEV (similaire à Excel) dans les pandas : pd.merge(df1, df2, on ='column_name', how ='left') L’exemple suivant étape par étape montre comment utiliser cette syntaxe dans la pratique. Étape 1 : Créer deux...
Une matrice de dispersion est exactement ce à quoi elle ressemble : une matrice de nuages de points. Ce type de matrice est utile car il vous permet de visualiser simultanément la relation entre plusieurs variables d’un ensemble de données. Vous...