La multicolinéarité dans l’analyse de régression se produit lorsque deux ou plusieurs variables prédictives sont fortement corrélées les unes aux autres, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation...
Ce didacticiel fournit un guide complet des meilleurs thèmes ggplot2, notamment : Comment modifier l’apparence des tracés à l’aide des thèmes ggplot2 intégrés. Comment modifier l’apparence des tracés à l’aide de thèmes prédéfinis de la bibliothèque ggthemes . Comment modifier des composants...
Ce guide présente un exemple de la manière d’effectuer une régression linéaire multiple dans R, notamment : Examiner les données avant d’ajuster le modèle Ajustement du modèle Vérification des hypothèses du modèle Interprétation de la sortie du modèle Évaluation de la qualité...
La distance de Cook , souvent notée D i , est utilisée dans l’analyse de régression pour identifier les points de données influents susceptibles d’affecter négativement votre modèle de régression. La formule de la distance de Cook est la suivante : ré...
Un tableau de fréquences bidirectionnel est un tableau qui affiche les fréquences (ou « comptes ») pour deux variables catégorielles. Par exemple, le tableau à double entrée suivant montre les résultats d’une enquête qui a demandé à 100 personnes quel sport elles préféraient :...
De nombreux tests statistiques (comme une ANOVA unidirectionnelle ou une ANOVA bidirectionnelle ) supposent que la variance entre plusieurs groupes est égale. Une façon de tester formellement cette hypothèse consiste à utiliser le test de Levene , qui teste si la...
Un tracé QQ , abréviation de « quantile-quantile », est un type de tracé que nous pouvons utiliser pour déterminer si un ensemble de données provient potentiellement ou non d’une distribution théorique. De nombreux tests statistiques supposent qu’un ensemble de données...
Ce didacticiel fournit une explication simple sur la façon d’interpréter la statistique C d’un modèle de régression logistique. Qu’est-ce que la régression logistique ? La régression logistique est une méthode statistique que nous utilisons pour ajuster un modèle de régression lorsque...
Le n ème centile d’un ensemble de données est la valeur qui coupe les n premiers pour cent des valeurs de données lorsque toutes les valeurs sont triées du plus petit au plus grand. Par exemple, le 90e centile d’un ensemble de...
Un test t pour échantillons appariés est un test statistique qui compare les moyennes de deux échantillons lorsque chaque observation d’un échantillon peut être associée à une observation de l’autre échantillon. Par exemple, supposons que nous souhaitions savoir si un certain...