Panda: ottieni righe che non si trovano in un altro dataframe

Di Benjamin anderson Luglio 15, 2023 Guida 0 commenti

È possibile utilizzare la seguente sintassi di base per ottenere righe da un DataFrame panda che non si trovano in un altro DataFrame:

 #merge two DataFrames and create indicator column
df_all = df1. merge ( df2.drop_duplicates (), on=[' col1 ',' col2 '],
                   how=' left ', indicator= True )

#create DataFrame with rows that exist in first DataFrame only
df1_only = df_all[df_all[' _merge '] == ' left_only ']

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: ottenere righe in un DataFrame Pandas che non si trovano in un altro DataFrame

Supponiamo di avere i seguenti due DataFrames panda:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E'], 
                    ' points ': [12, 15, 22, 29, 24]}) 

print (df1)

  team points
0 to 12
1 B 15
2 C 22
3 D 29
4 E 24

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'D', 'F', 'G', 'H'],
                    ' points ': [12, 29, 15, 19, 10]})

print (df2)

  team points
0 to 12
1 D 29
2 F 15
3 G 19
4:10 a.m.

Possiamo utilizzare la seguente sintassi per unire i due DataFrame e creare una colonna indicatore per indicare quali righe appartengono a ciascun DataFrame:

 #merge two DataFrames and create indicator column
df_all = df1. merge ( df2.drop_duplicates (), on=[' team ',' points '],
                   how=' left ', indicator= True )

#view result
print (df_all)

Possiamo quindi utilizzare la seguente sintassi per ottenere solo le righe dal primo DataFrame che non si trovano nel secondo DataFrame:

 #create DataFrame with rows that exist in first DataFrame only
df1_only = df_all[df_all[' _merge '] == ' left_only ']

#view DataFrame
print (df1_only)

  team points _merge
1 B 15 left_only
2 C 22 left_only
4 E 24 left_only

Infine, possiamo rimuovere la colonna _merge se vogliamo:

 #drop '_merge' column
df1_only = df1_only. drop (' _merge ', axis= 1 )

#view DataFrame
print (df1_only)

  team points
1 B 15
2 C 22
4 E 24

Il risultato è un DataFrame in cui tutte le righe esistono nel primo DataFrame ma non nel secondo DataFrame.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:

Come aggiungere una colonna da un DataFrame a un altro in Pandas
Come modificare l’ordine delle colonne in Pandas
Come ordinare le colonne per nome in Pandas

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio: ottenere righe in un DataFrame Pandas che non si trovano in un altro DataFrame

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento