Pandas : créer une nouvelle colonne en utilisant plusieurs conditions If Else
Vous pouvez utiliser la syntaxe suivante pour créer une nouvelle colonne dans un DataFrame pandas en utilisant plusieurs conditions if else :
#define conditions conditions = [ (df['column1'] == 'A') & (df['column2'] < 20), (df['column1'] == 'A') & (df['column2'] >= 20), (df['column1'] == 'B') & (df['column2'] < 20), (df['column1'] == 'B') & (df['column2'] >= 20) ] #define results results = ['result1', 'result2', 'result3', 'result4'] #create new column based on conditions in column1 and column2 df['new_column'] = np.select(conditions, results)
Cet exemple particulier crée une colonne appelée new_column dont les valeurs sont basées sur les valeurs de column1 et column2 dans le DataFrame.
L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.
Exemple : créer une nouvelle colonne en utilisant plusieurs conditions If Else dans Pandas
Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :
import pandas as pd #create DataFrame df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], 'points': [15, 18, 22, 24, 12, 17, 20, 28]}) #view DataFrame print(df) team points 0 A 15 1 A 18 2 A 22 3 A 24 4 B 12 5 B 17 6 B 20 7 B 28
Supposons maintenant que nous souhaitions créer une nouvelle colonne appelée classe qui classe chaque joueur dans l’un des quatre groupes suivants :
- Bad_A si l’équipe est A et points < 20
- Good_A si l’équipe est A et points ≥ 20
- Bad_B si l’équipe est B et points < 20
- Good_B si l’équipe est B et points ≥ 20
Nous pouvons utiliser la syntaxe suivante pour ce faire :
import numpy as np #define conditions conditions = [ (df['team'] == 'A') & (df['points'] < 20), (df['team'] == 'A') & (df['points'] >= 20), (df['team'] == 'B') & (df['points'] < 20), (df['team'] == 'B') & (df['points'] >= 20) ] #define results results = ['Bad_A', 'Good_A', 'Bad_B', 'Good_B'] #create new column based on conditions in column1 and column2 df['class'] = np.select(conditions, results) #view updated DataFrame print(df) team points class 0 A 15 Bad_A 1 A 18 Bad_A 2 A 22 Good_A 3 A 24 Good_A 4 B 12 Bad_B 5 B 17 Bad_B 6 B 20 Good_B 7 B 28 Good_B
La nouvelle colonne appelée classe affiche le classement de chaque joueur en fonction des valeurs des colonnes équipe et points .
Remarque : Vous pouvez trouver la documentation complète de la fonction NumPy select() ici .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :
Pandas : comment créer une colonne booléenne basée sur la condition
Pandas : Comment compter les valeurs dans une colonne avec condition
Pandas : comment utiliser Groupby et compter avec condition