Hoe corrwith() te gebruiken in panda's (met voorbeelden)
U kunt de functie corrwith() in panda’s gebruiken om de paarsgewijze correlatie te berekenen tussen numerieke kolommen met dezelfde naam in twee verschillende panda’s DataFrames.
Deze functie gebruikt de volgende basissyntaxis:
df1. corrwith (df2)
Opmerking : deze functie verschilt van de functie corr() , die de correlatie berekent tussen twee numerieke kolommen binnen hetzelfde DataFrame.
Het volgende voorbeeld laat zien hoe u de functie corrwith() in de praktijk kunt gebruiken.
Voorbeeld: Corwith() gebruiken in Panda’s
Laten we aannemen dat we de volgende twee panda-dataframes hebben:
import pandas as pd #create first DataFrame df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'], ' points ': [18, 22, 29, 25, 14, 11], ' assists ': [4, 5, 5, 4, 8, 12], ' rebounds ': [10, 6, 4, 6, 3, 5]}) print (df1) team points assists rebounds 0 to 18 4 10 1 B 22 5 6 2 C 29 5 4 3 D 25 4 6 4 E 14 8 3 5 F 11 12 5 #create second DataFrame df2 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'], ' points ': [22, 25, 27, 35, 25, 20], ' assists ': [15, 13, 8, 8, 5, 8], ' rebs ': [4, 11, 12, 8, 7, 10]}) print (df2) team points assists rebs 0 A 22 15 4 1 B 25 13 11 2 C 27 8 12 3 D 35 8 8 4 E 25 5 7 5 F 20 8 10
We kunnen de functie corrwith() gebruiken om de correlatie te berekenen tussen numerieke kolommen met dezelfde namen in de twee DataFrames:
#calculate correlation between numeric columns with same names in each DataFrame
df1. corrwith (df2)
points 0.677051
assists -0.478184
NaN rebounds
rebs NaN
dtype:float64
Uit het resultaat kunnen we zien:
- De correlatie tussen de puntkolomwaarden van de twee DataFrames is 0,677 .
- De correlatie tussen de helperkolomwaarden in de twee DataFrames is -0,478 .
Omdat de kolomnamen bounces en rebs niet in beide DataFrames bestonden, wordt voor elk van deze kolommen een NaN- waarde geretourneerd.
Opmerking 1 : Standaard berekent de functie corrwith() de Pearson-correlatiecoëfficiënt tussen kolommen, maar u kunt ook method=’kendall‘ of method=’spearman‘ opgeven om in plaats van correlatie een ander type coëfficiënt te berekenen.
Opmerking #2 : Je kunt hier de volledige documentatie voor de functie corrwith() vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Hoe de correlatie per groep in Panda’s te berekenen
Hoe de glijdende correlatie bij panda’s te berekenen
Hoe de correlatie tussen twee kolommen in Panda’s te berekenen