Hoe de correlatie per groep in r te berekenen
U kunt de volgende basissyntaxis gebruiken om de correlatie tussen twee variabelen per groep in R te berekenen:
library (dplyr)
df %>%
group_by(group_var) %>%
summarize(cor=cor(var1, var2))
Deze specifieke syntaxis berekent decorrelatie tussen var1 en var2 , gegroepeerd op group_var .
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: bereken de correlatie per groep in R
Stel dat we het volgende dataframe hebben met informatie over basketbalspelers van verschillende teams:
#create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
points=c(18, 22, 19, 14, 14, 11, 20, 28),
assists=c(2, 7, 9, 3, 12, 10, 14, 21))
#view data frame
df
team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21
We kunnen de volgende syntaxis uit het dplyr- pakket gebruiken om de correlatie tussen punten en assists te berekenen, gegroepeerd per team :
library (dplyr)
df %>%
group_by(team) %>%
summarize(cor=cor(points, assists))
# A tibble: 2 x 2
team horn
1 A 0.603
2 B 0.982
Uit het resultaat kunnen we zien:
- De correlatiecoëfficiënt tussen punten en assists voor team A is 0,603 .
- De correlatiecoëfficiënt tussen punten en assists voor team B is 0,982 .
Omdat beide correlatiecoëfficiënten positief zijn, vertelt dit ons dat de relatie tussen punten en assists voor beide teams positief is.
Gerelateerd: Wat wordt beschouwd als een “sterke” correlatie?
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in R kunt uitvoeren:
Hoe unieke waarden per groep te tellen in R
Hoe de som per groep in R te berekenen
Hoe het gemiddelde per groep in R te berekenen
Hoe samenvattende statistieken per groep te berekenen in R