La distribution binomiale est une distribution de probabilité utilisée pour modéliser la probabilité qu’un certain nombre de « succès » se produisent au cours d’un nombre fixe d’essais. La distribution binomiale est appropriée à utiliser si les trois hypothèses suivantes sont...
Un tracé de points est un type de tracé qui affiche les fréquences des valeurs dans un ensemble de données à l’aide de points empilés. Souvent, lorsque nous créons un diagramme de points, nous souhaitons quantifier le centre et la répartition :...
Un histogramme est un type de graphique qui nous permet de visualiser la distribution des valeurs dans un ensemble de données. L’axe des X affiche les valeurs de l’ensemble de données et l’axe des Y montre la fréquence de chaque valeur....
Une valeur aberrante est une observation anormalement éloignée des autres valeurs d’un ensemble de données. Nous définissons souvent une observation comme étant aberrante si elle est 1,5 fois l’écart interquartile supérieur au troisième quartile ou 1,5 fois l’écart interquartile inférieur au...
Un intervalle de confiance est une plage de valeurs susceptible de contenir un paramètre de population avec un certain niveau de confiance. Lorsque nous rapportons les intervalles de confiance, nous utilisons toujours le format suivant : IC à 95 % [LL, UL]...
Un message d’avertissement que vous pouvez rencontrer dans R est : Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Cet avertissement se produit lorsque vous ajustez un modèle de régression logistique et que les probabilités prédites d’une ou plusieurs observations...
Souvent, en statistiques et en apprentissage automatique, nous normalisons les variables de telle sorte que la plage des valeurs soit comprise entre 0 et 1. La raison la plus courante pour normaliser les variables est lorsque nous effectuons un certain type...
Une ANOVA (« analyse de variance ») est utilisée pour déterminer si les moyennes de trois groupes indépendants ou plus sont égales ou non. Une ANOVA utilise les hypothèses nulles et alternatives suivantes : H 0 : Toutes les moyennes de groupe...
La distance de Manhattan entre deux vecteurs, A et B , est calculée comme suit : Σ|UNE je – B je | où i est le i ème élément de chaque vecteur. Cette distance est utilisée pour mesurer la dissemblance entre deux...
Un écart type regroupé est simplement une moyenne pondérée des écarts types de deux ou plusieurs groupes indépendants. En statistiques, il apparaît le plus souvent dans le test t à deux échantillons , qui est utilisé pour tester si les moyennes...