Le coefficient de corrélation de Matthews (MCC) est une métrique que nous pouvons utiliser pour évaluer les performances d’un modèle de classification . Il est calculé comme suit : MCC = (TP*TN – FP*FN) / √ (TP+FP)(TP+FN)(TN+FP)(TN+FN) où: TP : Nombre de...
Vous pouvez utiliser la syntaxe de base suivante dans dplyr pour muter une variable si une colonne contient une chaîne particulière : library(dplyr) df %>% mutate_at(vars(contains('starter')), ~ (scale(.) %>% as.vector)) Cette syntaxe particulière applique la fonction scale() à chaque variable du bloc...
Un histogramme est un tracé qui peut être utilisé pour visualiser rapidement la distribution des valeurs dans un ensemble de données. Ce didacticiel fournit un exemple étape par étape de la façon de créer un histogramme dans Google Sheets et de...
Une moyenne tronquée est la moyenne d’un ensemble de données qui a été calculée après avoir supprimé un pourcentage spécifique des valeurs les plus petites et les plus grandes de l’ensemble de données. Par exemple, une moyenne tronquée de 10 %...
Une moyenne tronquée est la moyenne d’un ensemble de données qui a été calculée après avoir supprimé un pourcentage spécifique des valeurs les plus petites et les plus grandes de l’ensemble de données. Par exemple, une moyenne tronquée de 10 %...
Dans le langage de programmation R, un data.frame fait partie de la base R. N’importe quel data.frame peut être converti en data.table à l’aide de la fonction setDF du package data.table . Un data.table offre les avantages suivants par rapport à...
Dans un modèle de régression linéaire, un coefficient de régression nous indique la variation moyenne de la variable de réponse associée à une augmentation d’une unité de la variable prédictive. Nous pouvons utiliser la formule suivante pour calculer un intervalle de...
Souvent, vous souhaiterez peut-être imprimer une chaîne et une variable sur la même ligne dans R. Heureusement, cela est facile à faire en utilisant les fonctions print() et paste0() . L’exemple suivant montre comment procéder. Exemple : imprimer une chaîne et une variable...
L’un des algorithmes de clustering les plus couramment utilisés dans l’apprentissage automatique est connu sous le nom de clustering k-means . Le clustering K-means est une technique dans laquelle nous plaçons chaque observation d’un ensemble de données dans l’un des K...
La régression logistique est une méthode que nous pouvons utiliser pour ajuster un modèle de régression lorsque la variable de réponse est binaire. L’exemple étape par étape suivant montre comment effectuer une régression logistique dans Google Sheets. Étape 1 : Installez le...