Vous pouvez utiliser la fonction DataFrame.std() pour calculer l’écart type des valeurs dans un DataFrame pandas. Vous pouvez utiliser les méthodes suivantes pour calculer l’écart type dans la pratique : Méthode 1 : calculer l’écart type d’une colonne df['column_name'].std() Méthode 2 : calculer l’écart...
La règle empirique , parfois appelée règle 68-95-99.7, stipule que pour un ensemble de données donné avec une distribution normale : 68 % des valeurs des données se situent dans un écart type de la moyenne. 95 % des valeurs des données se situent...
Nous utilisons souvent le coefficient de corrélation de Pearson pour calculer la corrélation entre des variables numériques continues. Cependant, nous devons utiliser une métrique différente pour calculer la corrélation entre les variables catégorielles, c’est-à-dire les variables qui prennent des noms ou...
L’encodage à chaud est utilisé pour convertir des variables catégorielles dans un format pouvant être facilement utilisé par les algorithmes d’apprentissage automatique . L’idée de base du codage one-hot est de créer de nouvelles variables qui prennent les valeurs 0 et...
Vous pouvez utiliser la syntaxe de base suivante pour créer des sous-tracés dans la bibliothèque de visualisation de données Seaborn en Python : #define dimensions of subplots (rows, columns) fig, axes = plt.subplots(2, 2) #create chart in each subplot sns.boxplot(data=df, x='team', y='points',...
Vous pouvez utiliser la syntaxe de base suivante pour extraire le mois d’une date dans pandas : df['month'] = pd.DatetimeIndex(df['date_column']).month L’exemple suivant montre comment utiliser cette fonction dans la pratique. Exemple : extraire le mois de la date dans Pandas Supposons que nous...
De nombreux tests statistiques supposent que les ensembles de données sont normalement distribués. Or, ce n’est souvent pas le cas dans la pratique. Une façon de résoudre ce problème consiste à transformer la distribution des valeurs dans un ensemble de données...
L’encodage à chaud est utilisé pour convertir les variables catégorielles dans un format pouvant être utilisé par les algorithmes d’apprentissage automatique . L’idée de base du codage one-hot est de créer de nouvelles variables qui prennent les valeurs 0 et 1...
La corrélation polychorique est utilisée pour calculer la corrélation entre les variables ordinales. Rappelons que les variables ordinales sont des variables dont les valeurs possibles sont catégoriques et ont un ordre naturel. Voici quelques exemples de variables mesurées sur une échelle...
La régression logistique est un type de modèle de régression que nous pouvons utiliser pour comprendre la relation entre une ou plusieurs variables prédictives et une variable de réponse lorsque la variable de réponse est binaire. Si nous n’avons qu’une seule...