Hoe corrwith() te gebruiken in panda's (met voorbeelden)


U kunt de functie corrwith() in panda’s gebruiken om de paarsgewijze correlatie te berekenen tussen numerieke kolommen met dezelfde naam in twee verschillende panda’s DataFrames.

Deze functie gebruikt de volgende basissyntaxis:

 df1. corrwith (df2)

Opmerking : deze functie verschilt van de functie corr() , die de correlatie berekent tussen twee numerieke kolommen binnen hetzelfde DataFrame.

Het volgende voorbeeld laat zien hoe u de functie corrwith() in de praktijk kunt gebruiken.

Voorbeeld: Corwith() gebruiken in Panda’s

Laten we aannemen dat we de volgende twee panda-dataframes hebben:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [18, 22, 29, 25, 14, 11],
                    ' assists ': [4, 5, 5, 4, 8, 12],
                    ' rebounds ': [10, 6, 4, 6, 3, 5]})

print (df1)

  team points assists rebounds
0 to 18 4 10
1 B 22 5 6
2 C 29 5 4
3 D 25 4 6
4 E 14 8 3
5 F 11 12 5

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [22, 25, 27, 35, 25, 20],
                    ' assists ': [15, 13, 8, 8, 5, 8],
                    ' rebs ': [4, 11, 12, 8, 7, 10]})

print (df2)

  team points assists rebs
0 A 22 15 4
1 B 25 13 11
2 C 27 8 12
3 D 35 8 8
4 E 25 5 7
5 F 20 8 10

We kunnen de functie corrwith() gebruiken om de correlatie te berekenen tussen numerieke kolommen met dezelfde namen in de twee DataFrames:

 #calculate correlation between numeric columns with same names in each DataFrame
df1. corrwith (df2)

points 0.677051
assists -0.478184
NaN rebounds
rebs NaN
dtype:float64

Uit het resultaat kunnen we zien:

  • De correlatie tussen de puntkolomwaarden van de twee DataFrames is 0,677 .
  • De correlatie tussen de helperkolomwaarden in de twee DataFrames is -0,478 .

Omdat de kolomnamen bounces en rebs niet in beide DataFrames bestonden, wordt voor elk van deze kolommen een NaN- waarde geretourneerd.

Opmerking 1 : Standaard berekent de functie corrwith() de Pearson-correlatiecoëfficiënt tussen kolommen, maar u kunt ook method=’kendall‘ of method=’spearman‘ opgeven om in plaats van correlatie een ander type coëfficiënt te berekenen.

Opmerking #2 : Je kunt hier de volledige documentatie voor de functie corrwith() vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:

Hoe de correlatie per groep in Panda’s te berekenen
Hoe de glijdende correlatie bij panda’s te berekenen
Hoe de correlatie tussen twee kolommen in Panda’s te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert