Comment utiliser l’opérateur Tilde (~) dans R

Par Dr. Benjamin Anderson juillet 19, 2023 Guide 0 commentaire

Vous pouvez utiliser l’opérateur tilde ( ~ ) dans R pour séparer le côté gauche d’une équation du côté droit.

Cet opérateur est le plus couramment utilisé avec la fonction lm() dans R, qui est utilisée pour ajuster les modèles de régression linéaire .

La syntaxe de base de la fonction lm() est :

model <- lm(y ~ x1 + x2, data=df)

Le nom de la variable sur le côté gauche de l’opérateur tilde (y) représente la variable de réponse .

Les noms de variables sur le côté droit de l’opérateur tilde (x1, x2) représentent les variables prédictives .

Les exemples suivants montrent comment utiliser cet opérateur tilde dans différents scénarios.

Exemple 1 : utiliser l’opérateur Tilde avec une variable prédictive

Supposons que nous ajustions le modèle de régression linéaire simple suivant dans R :

model <- lm(y ~ x, data=df)

Ce modèle de régression particulier a une variable de réponse (y) et une variable prédictive (x).

Si nous écrivions cette équation de régression en notation statistique, elle ressemblerait à ceci :

y = β ₀ + β ₁ x

Exemple 2 : utiliser l’opérateur Tilde avec plusieurs variables prédictives

Supposons que nous ajustions le modèle de régression linéaire multiple suivant dans R :

model <- lm(y ~ x1 + x2 + x3, data=df)

Ce modèle de régression particulier a une variable de réponse (y) et trois variables prédictives (x1, x2, x3).

Si nous écrivions cette équation de régression en notation statistique, elle ressemblerait à ceci :

y = β ₀ + β ₁ x ₁ + β ₂ x ₂ + β ₃ x ₃

Exemple 3 : Utiliser l’opérateur Tilde avec un nombre inconnu de variables prédictives

Supposons que nous ajustions le modèle de régression linéaire multiple suivant dans R :

model <- lm(y ~ ., data=df)

Cette syntaxe particulière indique que nous aimerions utiliser y comme variable de réponse et toutes les autres variables du bloc de données comme variables prédictives.

Cette syntaxe est utile lorsque nous voulons adapter un modèle de régression avec des tonnes de variables prédictives, mais que nous ne voulons pas saisir le nom individuel de chaque variable prédictive.

Ressources additionnelles

Les didacticiels suivants expliquent comment utiliser d’autres fonctions courantes dans R :

Comment utiliser l’opérateur de signe dollar ($) dans R
Comment utiliser l’opérateur « NOT IN » dans R
Comment utiliser l’opérateur %in% dans R

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus