Lorsque la relation entre un ensemble de variables prédictives et une variable de réponse est très complexe, nous utilisons souvent des méthodes non linéaires pour modéliser la relation entre elles. L’une de ces méthodes est celle des arbres de classification et...
Lorsque la relation entre un ensemble de variables prédictives et une variable de réponse est très complexe, nous utilisons souvent des méthodes non linéaires pour modéliser la relation entre elles. Une de ces méthodes consiste à construire un arbre de décision...
Une distribution d’échantillonnage est une distribution de probabilité d’une certaine statistique basée sur de nombreux échantillons aléatoires provenant d’une seule population . Ce didacticiel explique comment effectuer les opérations suivantes avec des distributions d’échantillonnage dans Excel : Générez une distribution d’échantillonnage. Visualisez...
Souvent, vous souhaiterez peut-être sélectionner un échantillon aléatoire à partir d’un ensemble de données dans Excel. Heureusement, cela est facile à faire en utilisant la fonction RAND() , qui génère un nombre aléatoire compris entre 0 et 1. Ce didacticiel fournit...
Un graphique de localisation à l’échelle est un type de graphique qui affiche les valeurs ajustées d’un modèle de régression le long de l’axe des x et la racine carrée des résidus standardisés le long de l’axe des y. En regardant...
Un intervalle de confiance est une plage de valeurs susceptible de contenir un paramètre de population avec un certain niveau de confiance. Il est calculé selon la formule générale suivante : Intervalle de confiance = (estimation ponctuelle) +/- (valeur critique)* (erreur...
R est l’un des langages de programmation les plus populaires pour travailler avec des données. Mais avant de pouvoir travailler avec des données, nous devons réellement les importer dans R ! Si vos données se trouvent déjà dans un fichier CSV ou...
Ladistribution normale est la distribution la plus couramment utilisée dans toutes les statistiques et est connue pour être symétrique et en forme de cloche. Une distribution étroitement liée est la distribution t , qui est également symétrique et en forme de...
La plupart des algorithmes d’apprentissage automatique supervisé sont basés sur l’utilisation d’un modèle prédictif unique comme la régression linéaire , la régression logistique , la régression de crête , etc. Cependant, des méthodes telles que le bagging et les forêts aléatoires...
Souvent, dans les statistiques, nous souhaitons collecter des données afin de pouvoir répondre à certaines questions de recherche. Par exemple, nous pourrions vouloir répondre aux questions suivantes : 1. Quel est le revenu médian des ménages à Miami, en Floride ? 2. Quel...