En statistiques, la divergence Kullback – Leibler (KL) est une métrique de distance qui quantifie la différence entre deux distributions de probabilité. Si nous avons deux distributions de probabilité, P et Q, nous écrivons généralement la divergence KL en utilisant la...
Vous pouvez utiliser les méthodes suivantes pour obtenir les noms de colonnes d’un bloc de données dans R : Méthode 1 : obtenir tous les noms de colonnes colnames(df) Méthode 2 : obtenir les noms de colonnes par ordre alphabétique sort(colnames(df)) Méthode 3 : obtenir les...
Souvent, vous souhaiterez peut-être tracer la moyenne et l’écart type par groupe dans ggplot2. Heureusement, cela est facile à faire en utilisant les fonctions geom_point() et geom_errorbar() dans ggplot2. L’exemple suivant montre comment utiliser ces fonctions pour créer le graphique suivant...
Vous pouvez utiliser l’une des méthodes suivantes pour calculer l’écart type par groupe dans R : Méthode 1 : utiliser la base R aggregate(df$col_to_aggregate, list(df$col_to_group_by), FUN=sd) Méthode 2 : utiliser dplyr library(dplyr) df %>% group_by(col_to_group_by) %>% summarise_at(vars(col_to_aggregate), list(name=sd)) Méthode 3 : utiliser data.table library(data.table) setDT(df)...
Dans l’analyse de régression, la multicolinéarité se produit lorsque deux ou plusieurs variables prédictives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation...
Vous pouvez utiliser l’une des méthodes suivantes pour supprimer plusieurs colonnes d’un bloc de données dans R à l’aide du package dplyr : 1. Supprimez plusieurs colonnes par nom df_new <- df %>% select(-c(col2, col4)) 2. Supprimez toutes les colonnes de la...
Vous pouvez utiliser la syntaxe de base suivante pour tracer plusieurs lignes dans ggplot2 : ggplot(df, aes(x=x_var, y=y_var)) + geom_line(aes(color=group_var)) + scale_color_manual(name='legend_title', labels=c('lab1', 'lab2', 'lab3'), values=c('color1', 'color2', 'color3')) Cette syntaxe particulière crée un tracé dans ggplot2 avec trois lignes. Cette syntaxe suppose...
Vous pouvez utiliser la syntaxe de base suivante pour ajouter une étiquette à une ligne horizontale dans ggplot2 : + annotate("text", x=9, y=20, label="Here is my text") Les exemples suivants montrent comment utiliser cette syntaxe dans la pratique. Exemple 1 : ajouter une...
Un tracé QQ, abréviation de « quantile-quantile », est utilisé pour évaluer si un ensemble de données provient potentiellement d’une distribution théorique. Dans la plupart des cas, ce type de tracé est utilisé pour déterminer si un ensemble de données suit...
Les tracés des résidus sont utilisés pour évaluer si les résidus d’un modèle de régression sont normalement distribués et s’ils présentent ou non une hétéroscédasticité . Pour créer un tracé résiduel dans ggplot2, vous pouvez utiliser la syntaxe de base suivante :...