Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment effectuer une analyse bivariée dans R (avec exemples)



Le terme analyse bivariée fait référence à l’analyse de deux variables. Vous pouvez vous en souvenir car le préfixe « bi » signifie « deux ».

Le but de l’analyse bivariée est de comprendre la relation entre deux variables

Il existe trois manières courantes d’effectuer une analyse bivariée :

1. Nuages de points

2. Coefficients de corrélation

3. Régression linéaire simple

L’exemple suivant montre comment effectuer chacun de ces types d’analyse bivariée à l’aide de l’ensemble de données suivant qui contient des informations sur deux variables : (1) Heures passées à étudier et (2) Résultats d’examen obtenus par 20 étudiants différents :

#create data frame
df <- data.frame(hours=c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3,
                         3, 4, 4, 5, 5, 6, 6, 6, 7, 8),
                 score=c(75, 66, 68, 74, 78, 72, 85, 82, 90, 82,
                         80, 88, 85, 90, 92, 94, 94, 88, 91, 96))

#view first six rows of data frame
head(df)

  hours score
1     1    75
2     1    66
3     1    68
4     2    74
5     2    78
6     2    72

1. Nuages de points

Nous pouvons utiliser la syntaxe suivante pour créer un nuage de points des heures étudiées par rapport à la note de l’examen dans R :

#create scatterplot of hours studied vs. exam score
plot(df$hours, df$score, pch=16, col='steelblue',
     main='Hours Studied vs. Exam Score',
     xlab='Hours Studied', ylab='Exam Score')

L’axe des x montre les heures étudiées et l’axe des y montre la note obtenue à l’examen.

Le graphique montre qu’il existe une relation positive entre les deux variables : à mesure que le nombre d’heures d’études augmente, les résultats aux examens ont également tendance à augmenter.

2. Coefficients de corrélation

Un coefficient de corrélation de Pearson est un moyen de quantifier la relation linéaire entre deux variables.

Nous pouvons utiliser la fonction cor() dans R pour calculer le coefficient de corrélation de Pearson entre deux variables :

#calculate correlation between hours studied and exam score received
cor(df$hours, df$score)

[1] 0.891306

Le coefficient de corrélation s’avère être de 0,891 .

Cette valeur est proche de 1, ce qui indique une forte corrélation positive entre les heures étudiées et la note obtenue à l’examen.

3. Régression linéaire simple

La régression linéaire simple est une méthode statistique que nous pouvons utiliser pour trouver l’équation de la droite qui « correspond » le mieux à un ensemble de données, que nous pouvons ensuite utiliser pour comprendre la relation exacte entre deux variables.

Nous pouvons utiliser la fonction lm() dans R pour ajuster un modèle de régression linéaire simple pour les heures étudiées et les résultats d’examen reçus :

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-6.920 -3.927  1.309  1.903  9.385 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  69.0734     1.9651   35.15  < 2e-16 ***
hours         3.8471     0.4613    8.34 1.35e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.171 on 18 degrees of freedom
Multiple R-squared:  0.7944,	Adjusted R-squared:  0.783 
F-statistic: 69.56 on 1 and 18 DF,  p-value: 1.347e-07

L’équation de régression ajustée s’avère être :

Score d’examen = 69,0734 + 3,8471*(heures étudiées)

Cela nous indique que chaque heure supplémentaire étudiée est associée à une augmentation moyenne de 3,8471 de la note à l’examen.

Nous pouvons également utiliser l’équation de régression ajustée pour prédire le score qu’un étudiant recevra en fonction du nombre total d’heures étudiées.

Par exemple, un étudiant qui étudie pendant 3 heures devrait obtenir un score de 81,6147 :

  • Score d’examen = 69,0734 + 3,8471*(heures étudiées)
  • Score d’examen = 69,0734 + 3,8471*(3)
  • Résultat de l’examen = 81,6147

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur l’analyse bivariée :

Une introduction à l’analyse bivariée
5 exemples de données bivariées dans la vie réelle
Une introduction à la régression linéaire simple

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *