Ggplot2에서 qq 플롯을 생성하는 방법(예제 포함)


“분위수-분위수”의 약자인 QQ 플롯은 데이터 세트가 잠재적으로 이론적 분포에서 나오는지 여부를 평가하는 데 사용됩니다.

대부분의 경우 이러한 유형의 도표는 데이터 세트가 정규 분포를 따르는지 여부를 확인하는 데 사용됩니다.

데이터가 정규 분포를 따르는 경우 QQ 플롯의 점은 직선 대각선에 놓이게 됩니다.

반대로, 점이 직선 대각선에서 크게 벗어나면 데이터가 정규 분포를 따르지 않을 가능성이 높습니다.

ggplot2에서 QQ 플롯을 생성하려면 다음과 같이 stat_qq()stat_qq_line() 함수를 사용할 수 있습니다.

 library (ggplot2)

ggplot(df, aes(sample=y)) +
  stat_qq() + 
  stat_qq_line()

다음 예에서는 이 구문을 사용하여 두 가지 시나리오에서 QQ 플롯을 생성하는 방법을 보여줍니다.

예 1: 정규 데이터에 대한 QQ 플롯

다음 코드는 200개의 관측값이 포함된 정규 분포 데이터 세트를 생성하고 R에서 데이터 세트에 대한 QQ 플롯을 생성하는 방법을 보여줍니다.

 library (ggplot2)

#make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
df <- data. frame (y=rnorm(200))

#create QQ plot
ggplot(df, aes(sample=y)) +
  stat_qq() + 
  stat_qq_line()

ggplot2의 QQ 플롯

우리는 점들이 주로 직선 대각선을 따라 놓여 있고 각 꼬리를 따라 약간의 편차가 있음을 알 수 있습니다.

이 그래프를 기반으로 이 데이터 세트가 정규 분포를 따른다고 가정합니다.

원하는 경우 색상 및 크기 인수를 사용하여 플롯에 있는 점의 색상과 크기를 변경할 수도 있습니다.

 library (ggplot2)

#make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
df <- data. frame (y=rnorm(200))

#create QQ plot
ggplot(df, aes(sample=y)) +
  stat_qq(size= 2.5 , color=' red ') + 
  stat_qq_line() 

예 2: 비정규 데이터에 대한 QQ 플롯

다음 코드는 200개의 관측값이 있는 지수 분포를 따르는 데이터 세트에 대한 QQ 플롯을 만드는 방법을 보여줍니다.

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
df <- data. frame (y=rexp( 200 , rate= 3 ))

#create QQ plot
ggplot(df, aes(sample=y)) +
  stat_qq() + 
  stat_qq_line()

점들이 대각선에서 크게 벗어나는 것을 볼 수 있습니다. 이는 데이터 세트가 정규 분포를 따르지 않음을 분명히 나타냅니다.

데이터가 지수 분포를 따라야 한다고 지정했다는 점을 고려하면 이는 의미가 있습니다.

추가 리소스

다음 튜토리얼에서는 ggplot2에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

ggplot2에서 여러 줄을 그리는 방법
ggplot2에서 평균과 표준편차를 그리는 방법
ggplot2에서 선 색상을 변경하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다