Pandas : créer une nouvelle colonne en utilisant plusieurs conditions If Else



Vous pouvez utiliser la syntaxe suivante pour créer une nouvelle colonne dans un DataFrame pandas en utilisant plusieurs conditions if else :

#define conditions
conditions = [
    (df['column1'] == 'A') & (df['column2'] < 20),
    (df['column1'] == 'A') & (df['column2'] >= 20),
    (df['column1'] == 'B') & (df['column2'] < 20),
    (df['column1'] == 'B') & (df['column2'] >= 20)
]

#define results
results = ['result1', 'result2', 'result3', 'result4']

#create new column based on conditions in column1 and column2
df['new_column'] = np.select(conditions, results)

Cet exemple particulier crée une colonne appelée new_column dont les valeurs sont basées sur les valeurs de column1 et column2 dans le DataFrame.

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : créer une nouvelle colonne en utilisant plusieurs conditions If Else dans Pandas

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   'points': [15, 18, 22, 24, 12, 17, 20, 28]})

#view DataFrame
print(df)

  team  points
0    A      15
1    A      18
2    A      22
3    A      24
4    B      12
5    B      17
6    B      20
7    B      28

Supposons maintenant que nous souhaitions créer une nouvelle colonne appelée classe qui classe chaque joueur dans l’un des quatre groupes suivants :

  • Bad_A si l’équipe est A et points < 20
  • Good_A si l’équipe est A et points ≥ 20
  • Bad_B si l’équipe est B et points < 20
  • Good_B si l’équipe est B et points ≥ 20

Nous pouvons utiliser la syntaxe suivante pour ce faire :

import numpy as np

#define conditions
conditions = [
    (df['team'] == 'A') & (df['points'] < 20),
    (df['team'] == 'A') & (df['points'] >= 20),
    (df['team'] == 'B') & (df['points'] < 20),
    (df['team'] == 'B') & (df['points'] >= 20)
]

#define results
results = ['Bad_A', 'Good_A', 'Bad_B', 'Good_B']

#create new column based on conditions in column1 and column2
df['class'] = np.select(conditions, results)

#view updated DataFrame
print(df)

  team  points   class
0    A      15   Bad_A
1    A      18   Bad_A
2    A      22  Good_A
3    A      24  Good_A
4    B      12   Bad_B
5    B      17   Bad_B
6    B      20  Good_B
7    B      28  Good_B

La nouvelle colonne appelée classe affiche le classement de chaque joueur en fonction des valeurs des colonnes équipe et points .

Remarque : Vous pouvez trouver la documentation complète de la fonction NumPy select() ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Pandas : comment créer une colonne booléenne basée sur la condition
Pandas : Comment compter les valeurs dans une colonne avec condition
Pandas : comment utiliser Groupby et compter avec condition

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *