Souvent, vous souhaiterez peut-être regrouper et agréger plusieurs colonnes d’un DataFrame pandas. Heureusement, cela est facile à faire en utilisant les fonctions pandas .groupby() et .agg() . Ce tutoriel explique plusieurs exemples d’utilisation pratique de ces fonctions. Exemple 1 : regrouper par...
Souvent, vous souhaiterez peut-être normaliser les valeurs de données d’une ou plusieurs colonnes dans un DataFrame pandas. Ce tutoriel explique deux façons de procéder : 1. Normalisation Min-Max Objectif : Convertit chaque valeur de données en une valeur comprise entre 0 et 1....
Le test de Shapiro-Wilk est un test de normalité. Il est utilisé pour déterminer si un échantillon provient ou non d’unedistribution normale . Pour effectuer un test Shapiro-Wilk en Python nous pouvons utiliser la fonction scipy.stats.shapiro() , qui reprend la syntaxe...
Le test de Kolmogorov-Smirnov est utilisé pour tester si un échantillon provient ou non d’une certaine distribution. Pour effectuer un test de Kolmogorov-Smirnov en Python, nous pouvons utiliser scipy.stats.kstest() pour un test à un échantillon ou scipy.stats.ks_2samp() pour un test à...
Les chercheurs prélèvent souvent des échantillons dans une population et utilisent les données de l’échantillon pour tirer des conclusions sur la population dans son ensemble. Une méthode d’échantillonnage couramment utilisée est l’échantillonnage aléatoire stratifié , dans lequel une population est divisée...
Souvent, vous souhaiterez peut-être ombrer la couleur des points dans un nuage de points matplotlib en fonction d’une troisième variable. Heureusement, cela est facile à faire en utilisant la fonction matplotlib.pyplot.scatter() , qui adopte la syntaxe suivante : matplotlib.pyplot.scatter(x, y, s=Aucun, c=Aucun,...
L’ erreur quadratique moyenne (RMSE) est une métrique qui nous indique à quel point nos valeurs prédites sont éloignées de nos valeurs observées dans un modèle, en moyenne. Il est calculé comme suit : RMSE = √[ Σ(P i – O i...
Souvent, vous souhaiterez peut-être modifier la taille de la police de divers éléments sur un tracé Matplotlib. Heureusement, c’est facile à faire en utilisant le code suivant : import matplotlib.pyplot as plt plt.rc('font', size=10) #controls default text size plt.rc('axes', titlesize=10) #fontsize of...
Un tracé de contours est un type de tracé qui nous permet de visualiser des données tridimensionnelles en deux dimensions à l’aide de contours. Vous pouvez créer un tracé de contour dans Matplotlib en utilisant les deux fonctions suivantes : matplotlib.pyplot.contour() –...
Souvent, vous souhaiterez peut-être supprimer les graduations d’un ou plusieurs axes dans un tracé Matplotlib. Heureusement, cela est facile à faire en utilisant la fonction tick_params() . Ce didacticiel montre plusieurs exemples d’utilisation pratique de cette fonction, basés sur le nuage...