Parfois, vous souhaiterez peut-être supprimer la colonne d’index d’un DataFrame pandas en Python. Étant donné que les pandas DataFrames et Series ont toujours un index, vous ne pouvez pas réellement supprimer l’index, mais vous pouvez le réinitialiser en utilisant le morceau...
Le boosting est une technique d’apprentissage automatique qui s’est avérée capable de produire des modèles avec une grande précision prédictive. L’un des moyens les plus courants de mettre en œuvre le boosting dans la pratique consiste à utiliser XGBoost , abréviation...
Souvent, dans les statistiques, nous souhaitons répondre à des questions telles que : Quel est le revenu moyen d’un ménage dans une certaine ville ? Quel est le poids moyen d’une certaine espèce de tortue ? Quelle est la fréquentation moyenne des...
Un coefficient de corrélation de Pearson mesure l’association linéaire entre deux variables. Il prend toujours une valeur comprise entre -1 et 1 où : -1 indique une corrélation linéaire parfaitement négative entre deux variables 0 indique aucune corrélation linéaire entre deux...
Pour normaliser les valeurs d’un ensemble de données entre 0 et 100, vous pouvez utiliser la formule suivante : z je = (x je – min(x)) / (max(x) – min(x)) * 100 où: z i : la ième valeur normalisée dans l’ensemble de données...
En statistiques, une observation est simplement une occurrence de quelque chose que vous mesurez. Par exemple, supposons que vous mesuriez le poids d’une certaine espèce de tortue. Chaque tortue pour laquelle vous collectez le poids compte pour une seule observation. L’ensemble...
L’analyse en composantes principales, souvent abrégée PCA, est une technique d’apprentissage automatique non supervisée qui cherche à trouver les composantes principales – des combinaisons linéaires des prédicteurs d’origine – qui expliquent une grande partie de la variation dans un ensemble de...
Une ANOVA unidirectionnelle est utilisée pour déterminer s’il existe ou non une différence statistiquement significative entre les moyennes de trois groupes indépendants ou plus. Si la valeur p globale du tableau ANOVA est inférieure à un certain niveau de signification, alors...
Une ANOVA unidirectionnelle est utilisée pour déterminer s’il existe ou non une différence statistiquement significative entre les moyennes de trois groupes indépendants ou plus. Si la valeur p globale du tableau ANOVA est inférieure à un certain niveau de signification, alors...
Parfois, vous souhaiterez peut-être ajouter un tableau NumPy en tant que nouvelle colonne à un DataFrame pandas. Heureusement, vous pouvez facilement le faire en utilisant la syntaxe suivante : df['new_column'] = array_name.tolist() Ce didacticiel montre quelques exemples d’utilisation pratique de cette syntaxe....