Le test de Goldfeld-Quandt est utilisé pour déterminer si l’hétéroscédasticité est présente dans un modèle de régression. L’hétéroscédasticité fait référence à la dispersion inégale des résidus à différents niveaux d’une variable de réponse dans un modèle de régression. Si l’hétéroscédasticité est...
Vous pouvez utiliser la syntaxe de base suivante pour regrouper les lignes par année dans un DataFrame pandas : df.groupby(df.your_date_column.dt.year)['values_column'].sum() Cette formule particulière regroupe les lignes par date dans your_date_column et calcule la somme des valeurs pour la valeurs_column dans le DataFrame....
Vous pouvez utiliser la syntaxe de base suivante pour convertir une ligne d’un DataFrame pandas en liste : row_list = df.loc[2, :].values.flatten().tolist() Cette syntaxe particulière convertit les valeurs de la position 2 de l’index de ligne du DataFrame en une liste. L’exemple...
Vous pouvez utiliser la syntaxe de base suivante pour extraire les coefficients de régression d’un modèle de régression construit avec scikit-learn en Python : pd.DataFrame(zip(X.columns, model.coef_)) L’exemple suivant montre comment utiliser cette syntaxe dans la pratique. Exemple : extraire les coefficients de régression...
Vous pouvez utiliser les méthodes suivantes pour obtenir la dernière ligne d’un DataFrame pandas : Méthode 1 : obtenir la dernière ligne (en tant que série Pandas) last_row = df.iloc[-1] Méthode 2 : obtenir la dernière ligne (en tant que DataFrame Pandas) last_row = df.iloc[-1:] Les...
L’une des hypothèses clés de la régression linéaire est que les résidus sont distribués avec une variance égale à chaque niveau de la variable prédictive. Cette hypothèse est connue sous le nom d’homoscédasticité . Lorsque cette hypothèse n’est pas respectée, on...
Une erreur que vous pouvez rencontrer dans R est : Error: Duplicate identifiers for rows Cette erreur se produit lorsque vous tentez d’utiliser la fonction spread() pour répartir les valeurs d’une ou plusieurs colonnes d’un bloc de données dans leurs propres colonnes....
Vous pouvez utiliser la syntaxe de base suivante pour supprimer les valeurs NA d’un tracé dans ggplot2 : library(ggplot2) ggplot(data=subset(df, !is.na(this_column)), aes(x=this_column)) + geom_bar() Cet exemple particulier crée un tracé à barres et supprime toutes les lignes du bloc de données où...
Vous pouvez utiliser la syntaxe de base suivante pour créer un tracé dans ggplot2 en utilisant plusieurs trames de données : library(ggplot2) ggplot() + geom_line(data=df1, aes(x=x_var, y=y_var), color='blue') + geom_line(data=df2, aes(x=x_var, y=y_var), color='red') Cet exemple particulier trace plusieurs lignes dans un seul...
Lors de l’utilisation de la fonction summarise() dans dplyr , toutes les variables non incluses dans les fonctions summarise() ou group_by() seront automatiquement supprimées. Cependant, vous pouvez utiliser la fonction mutate() pour résumer les données tout en conservant toutes les colonnes...