Hoe de correlatie per groep in r te berekenen


U kunt de volgende basissyntaxis gebruiken om de correlatie tussen twee variabelen per groep in R te berekenen:

 library (dplyr)

df %>%
  group_by(group_var) %>%
  summarize(cor=cor(var1, var2))

Deze specifieke syntaxis berekent decorrelatie tussen var1 en var2 , gegroepeerd op group_var .

Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld: bereken de correlatie per groep in R

Stel dat we het volgende dataframe hebben met informatie over basketbalspelers van verschillende teams:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(18, 22, 19, 14, 14, 11, 20, 28),
                 assists=c(2, 7, 9, 3, 12, 10, 14, 21))

#view data frame
df

  team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21

We kunnen de volgende syntaxis uit het dplyr- pakket gebruiken om de correlatie tussen punten en assists te berekenen, gegroepeerd per team :

 library (dplyr)

df %>%
  group_by(team) %>%
  summarize(cor=cor(points, assists))

# A tibble: 2 x 2
  team horn
   
1 A 0.603
2 B 0.982

Uit het resultaat kunnen we zien:

  • De correlatiecoëfficiënt tussen punten en assists voor team A is 0,603 .
  • De correlatiecoëfficiënt tussen punten en assists voor team B is 0,982 .

Omdat beide correlatiecoëfficiënten positief zijn, vertelt dit ons dat de relatie tussen punten en assists voor beide teams positief is.

Gerelateerd: Wat wordt beschouwd als een “sterke” correlatie?

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in R kunt uitvoeren:

Hoe unieke waarden per groep te tellen in R
Hoe de som per groep in R te berekenen
Hoe het gemiddelde per groep in R te berekenen
Hoe samenvattende statistieken per groep te berekenen in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert