Le V de Cramer est une mesure de la force de l’association entre deux variables nominales . Il va de 0 à 1 où : 0 indique aucune association entre les deux variables. 1 indique une forte association entre les deux...
Un test F partiel est utilisé pour déterminer s’il existe ou non une différence statistiquement significative entre un modèle de régression et une version imbriquée du même modèle. Un modèle imbriqué est simplement un modèle qui contient un sous-ensemble de variables...
Vous pouvez utiliser la syntaxe suivante pour supprimer les lignes contenant une certaine chaîne dans un bloc de données dans R : df[!grepl('string', df$column),] Ce didacticiel fournit plusieurs exemples d’utilisation pratique de cette syntaxe avec le bloc de données suivant dans R :...
De nombreux tests statistiques supposent que les ensembles de données sont normalement distribués . Cependant, cette hypothèse est souvent violée dans la pratique. Une façon de résoudre ce problème consiste à transformer les valeurs de l’ensemble de données à l’aide de...
Une transformation box-cox est une méthode couramment utilisée pour transformer un ensemble de données non normalement distribué en un ensemble plusnormalement distribué . L’idée de base est de trouver une valeur pour λ telle que les données transformées soient aussi proches...
Souvent, vous souhaiterez peut-être ajuster une courbe à un ensemble de données en Python. L’exemple étape par étape suivant explique comment ajuster les courbes aux données en Python à l’aide de la fonction numpy.polyfit() et comment déterminer quelle courbe correspond le...
Un tracé log-log est un tracé qui utilise des échelles logarithmiques à la fois sur l’axe des x et sur l’axe des y. Ce type de tracé est utile pour visualiser deux variables lorsque la véritable relation entre elles suit un...
Souvent, vous souhaiterez peut-être compter uniquement le nombre de lignes dans un DataFrame pandas qui répondent à certains critères. Heureusement, cela est facile à faire en utilisant la syntaxe de base suivante : sum(df.column_name == some_value) Les exemples suivants montrent comment utiliser...
La distribution normale est la distribution de probabilité la plus couramment utilisée en statistique. Il possède les propriétés suivantes : Symétrique En forme de cloche La moyenne et la médiane sont égales ; tous deux situés au centre de la distribution La...
Un graphique semi-logarithmique est un type de graphique qui utilise une échelle logarithmique sur l’axe des y et une échelle linéaire sur l’axe des x. Ce type de graphique est souvent utilisé lorsque les valeurs de la variable y présentent une...