Dr. Benjamin Anderson, Author at Statorials

Comment effectuer le test Goldfeld-Quandt en Python

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Le test de Goldfeld-Quandt est utilisé pour déterminer si l’hétéroscédasticité est présente dans un modèle de régression. L’hétéroscédasticité fait référence à la dispersion inégale des résidus à différents niveaux d’une variable de réponse dans un modèle de régression. Si l’hétéroscédasticité est...

[Continuer la lecture...]

Comment regrouper par année dans Pandas DataFrame (avec exemple)

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour regrouper les lignes par année dans un DataFrame pandas : df.groupby(df.your_date_column.dt.year)['values_column'].sum() Cette formule particulière regroupe les lignes par date dans your_date_column et calcule la somme des valeurs pour la valeurs_column dans le DataFrame....

[Continuer la lecture...]

Comment convertir une ligne Pandas DataFrame en liste (avec exemple)

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour convertir une ligne d’un DataFrame pandas en liste : row_list = df.loc[2, :].values.flatten().tolist() Cette syntaxe particulière convertit les valeurs de la position 2 de l’index de ligne du DataFrame en une liste. L’exemple...

[Continuer la lecture...]

Comment extraire les coefficients de régression du modèle Scikit-Learn

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour extraire les coefficients de régression d’un modèle de régression construit avec scikit-learn en Python : pd.DataFrame(zip(X.columns, model.coef_)) L’exemple suivant montre comment utiliser cette syntaxe dans la pratique. Exemple : extraire les coefficients de régression...

[Continuer la lecture...]

Comment obtenir la dernière ligne dans Pandas DataFrame (avec exemple)

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser les méthodes suivantes pour obtenir la dernière ligne d’un DataFrame pandas : Méthode 1 : obtenir la dernière ligne (en tant que série Pandas) last_row = df.iloc[-1] Méthode 2 : obtenir la dernière ligne (en tant que DataFrame Pandas) last_row = df.iloc[-1:] Les...

[Continuer la lecture...]

Comment effectuer une régression des moindres carrés pondérés en Python

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

L’une des hypothèses clés de la régression linéaire est que les résidus sont distribués avec une variance égale à chaque niveau de la variable prédictive. Cette hypothèse est connue sous le nom d’homoscédasticité . Lorsque cette hypothèse n’est pas respectée, on...

[Continuer la lecture...]

Comment réparer dans R : erreur : identifiants en double pour les lignes

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Une erreur que vous pouvez rencontrer dans R est : Error: Duplicate identifiers for rows Cette erreur se produit lorsque vous tentez d’utiliser la fonction spread() pour répartir les valeurs d’une ou plusieurs colonnes d’un bloc de données dans leurs propres colonnes....

[Continuer la lecture...]

Comment supprimer les NA du tracé dans ggplot2 (avec exemple)

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour supprimer les valeurs NA d’un tracé dans ggplot2 : library(ggplot2) ggplot(data=subset(df, !is.na(this_column)), aes(x=this_column)) + geom_bar() Cet exemple particulier crée un tracé à barres et supprime toutes les lignes du bloc de données où...

[Continuer la lecture...]

Comment créer un tracé dans ggplot2 à l’aide de plusieurs blocs de données

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour créer un tracé dans ggplot2 en utilisant plusieurs trames de données : library(ggplot2) ggplot() + geom_line(data=df1, aes(x=x_var, y=y_var), color='blue') + geom_line(data=df2, aes(x=x_var, y=y_var), color='red') Cet exemple particulier trace plusieurs lignes dans un seul...

[Continuer la lecture...]

Dplyr : Comment résumer les données mais conserver toutes les colonnes

Par Dr. Benjamin Anderson juillet 15, 2023 Guide 0 commentaire

Lors de l’utilisation de la fonction summarise() dans dplyr , toutes les variables non incluses dans les fonctions summarise() ou group_by() seront automatiquement supprimées. Cependant, vous pouvez utiliser la fonction mutate() pour résumer les données tout en conservant toutes les colonnes...

[Continuer la lecture...]

Auteur/autrice : Dr. Benjamin Anderson