Panda's: hoe u kunt controleren of twee dataframes gelijk zijn


U kunt de volgende basissyntaxis gebruiken om te controleren of twee panda’s DataFrames gelijk zijn:

 df1. equals (df2)

Dit retourneert de waarde True of False .

Als twee DataFrames niet gelijk zijn, kunt u de volgende syntaxis gebruiken om rijen in het tweede DataFrame te vinden die niet bestaan in het eerste DataFrame:

 #perform outer join on two DataFrames
all_df = df1. merge (df2, indicator= True , how=' outer ')

#find which rows only exist in second DataFrame
only_df2 = all_df[all_df[' _merge '] == ' right_only ']
only_df2 = only_df2. drop (' _merge ', axis= 1 )

Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld: Controleer of twee panda’s DataFrames gelijk zijn

Laten we aannemen dat we de volgende twee panda-dataframes hebben:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E'], 
                    ' points ': [12, 15, 22, 29, 24]}) 

print (df1)

  team points
0 to 12
1 B 15
2 C 22
3 D 29
4 E 24

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'D', 'F', 'G', 'H'],
                    ' points ': [12, 29, 15, 19, 10]})

print (df2)

  team points
0 to 12
1 D 29
2 F 15
3 G 19
4:10 a.m.

We kunnen de volgende syntaxis gebruiken om te controleren of de twee DataFrames gelijk zijn:

 #check if two DataFrames are equal
df1. equals (df2)

False

De uitvoer retourneert False , wat betekent dat de twee DataFrames niet gelijk zijn.

We kunnen dan de volgende syntaxis gebruiken om te bepalen welke rijen er in het tweede DataFrame voorkomen, maar niet in de eerste:

 #perform outer join on two DataFrames
all_df = df1. merge (df2, indicator= True , how=' outer ')

#find which rows only exist in second DataFrame
only_df2 = all_df[all_df[' _merge '] == ' right_only ']
only_df2 = only_df2. drop (' _merge ', axis= 1 )

#view results
print (only_df2)

  team points
5 F 15
6 G 19
7:10 a.m.

Uit het resultaat kunnen we zien dat er drie rijen in het tweede DataFrame zijn die niet bestaan in het eerste DataFrame.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Panda’s: voeg een kolom toe van het ene DataFrame naar het andere
Panda’s: Haal rijen op die zich niet in een ander DataFrame bevinden
Panda’s: hoe controleer je of meerdere kolommen gelijk zijn?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert