R에서 이변량 분석을 수행하는 방법(예제 포함)


이변량 분석이라는 용어는 두 변수에 대한 분석을 의미합니다. 접두사 “bi”가 “둘”을 의미하기 때문에 이것을 기억할 수 있습니다.

이변량 분석의 목표는 두 변수 간의 관계를 이해하는 것입니다.

이변량 분석을 수행하는 세 가지 일반적인 방법은 다음과 같습니다.

1. 포인트 클라우드

2. 상관계수

3. 단순 선형 회귀

다음 예에서는 (1) 공부에 소비한 시간 및 (2) 20명의 학생이 획득한 시험 점수라는 두 변수에 대한 정보가 포함된 다음 데이터 세트를 사용하여 이러한 각 유형의 이변량 분석을 수행하는 방법을 보여줍니다.

 #create data frame
df <- data. frame (hours=c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3,
                         3, 4, 4, 5, 5, 6, 6, 6, 7, 8),
                 score=c(75, 66, 68, 74, 78, 72, 85, 82, 90, 82,
                         80, 88, 85, 90, 92, 94, 94, 88, 91, 96))

#view first six rows of data frame
head(df)

  hours score
1 1 75
2 1 66
3 1 68
4 2 74
5 2 78
6 2 72

1. 포인트 클라우드

다음 구문을 사용하여 R에서 시험 성적과 공부한 시간의 산점도를 만들 수 있습니다.

 #create scatterplot of hours studied vs. exam score
plot(df$hours, df$score, pch= 16 , col=' steelblue ',
     main=' Hours Studied vs. Exam Score ',
     xlab=' Hours Studied ', ylab=' Exam Score ')

x축은 공부한 시간을 나타내고 y축은 시험에서 얻은 성적을 나타냅니다.

그래프는 두 변수 사이에 긍정적인 관계가 있음을 보여줍니다. 학습 시간이 증가할수록 시험 점수도 증가하는 경향이 있습니다.

2. 상관계수

피어슨 상관 계수는 두 변수 간의 선형 관계를 수량화하는 방법입니다.

R의 cor() 함수를 사용하여 두 변수 사이의 Pearson 상관 계수를 계산할 수 있습니다.

 #calculate correlation between hours studied and exam score received
cor(df$hours, df$score)

[1] 0.891306

상관계수는 0.891 로 나타났다.

이 값은 1에 가까우며, 이는 공부한 시간과 시험 성적 사이에 강한 양의 상관관계가 있음을 나타냅니다.

3. 단순 선형 회귀

단순 선형 회귀는 데이터 집합에 가장 잘 맞는 선의 방정식을 찾는 데 사용할 수 있는 통계 방법으로, 이를 사용하여 두 변수 간의 정확한 관계를 이해할 수 있습니다.

R의 lm() 함수를 사용하여 공부한 시간과 받은 시험 결과에 대한 간단한 선형 회귀 모델을 맞출 수 있습니다.

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-6,920 -3,927 1,309 1,903 9,385 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 69.0734 1.9651 35.15 < 2nd-16 ***
hours 3.8471 0.4613 8.34 1.35e-07 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.171 on 18 degrees of freedom
Multiple R-squared: 0.7944, Adjusted R-squared: 0.783 
F-statistic: 69.56 on 1 and 18 DF, p-value: 1.347e-07

적합 회귀 방정식은 다음과 같습니다.

시험 점수 = 69.0734 + 3.8471*(공부한 시간)

이는 공부한 시간이 추가될 때마다 시험 점수가 평균 3.8471 증가하는 것과 관련이 있음을 알려줍니다.

또한 적합 회귀 방정식을 사용하여 총 공부 시간을 기준으로 학생이 받게 될 점수를 예측할 수 있습니다.

예를 들어, 3시간 동안 공부한 학생은 81.6147 점을 받아야 합니다.

  • 시험 점수 = 69.0734 + 3.8471*(공부한 시간)
  • 시험 점수 = 69.0734 + 3.8471*(3)
  • 시험 결과 = 81.6147

추가 리소스

다음 자습서에서는 이변량 분석에 대한 추가 정보를 제공합니다.

이변량 분석 소개
실생활에서 사용되는 이변량 데이터의 5가지 예
단순 선형 회귀 소개

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다