R의 다이아몬드 데이터세트에 대한 완전한 가이드

에 의해 벤자민 앤더슨 7월 20, 2023 가이드 댓글 0개

다이아몬드 데이터세트는 R의 ggplot2 패키지에 내장된 데이터세트입니다.

여기에는 53,940개의 다양한 다이아몬드에 대한 10가지 변수(예: 가격, 색상, 투명도 등)에 대한 측정값이 포함되어 있습니다.

이 튜토리얼에서는 R에서 다이아몬드 데이터세트를 탐색, 요약, 시각화하는 방법을 설명합니다.

다이아몬드 데이터세트 로드

다이아몬드 데이터세트는 ggplot2에 내장된 데이터세트이므로 먼저 ggplot2 패키지를 설치하고(아직 설치하지 않은 경우) 로드해야 합니다.

 #install ggplot2 if not already installed
install. packages (' ggplot2 ')

#load ggplot2
library (ggplot2)

ggplot2를 로드한 후에 는 data() 함수를 사용하여 다이아몬드 데이터세트를 로드할 수 있습니다.

 data(diamonds)

head() 함수를 사용하여 데이터세트의 처음 6개 행을 살펴볼 수 있습니다.

 #view first six rows of diamonds dataset
head(diamonds)

  carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48

다이아몬드 데이터 세트 요약

summary() 함수를 사용하여 데이터세트의 각 변수를 빠르게 요약할 수 있습니다.

 #summarize diamonds dataset
summary(diamonds)

     carat cut color clarity depth      
 Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00  
 1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00  
 Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80  
 Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75  
 3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50  
 Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00  
                                    D: 2808 (Other): 2531                  
     table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000  
 1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910  
 Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530  
 Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539  
 3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040  
 Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800

각 수치 변수에 대해 다음 정보를 볼 수 있습니다.

Min : 최소값입니다.
1st Qu : 1사분위수(25번째 백분위수)의 값입니다.
중앙값 : 중앙값입니다.
평균 : 평균값입니다.
3rd Qu : 3분위수(75번째 백분위수)의 값입니다.
최대 : 최대값입니다.

데이터 세트의 범주형 변수(컷, 색상, 선명도)의 경우 각 값의 빈도 수가 표시됩니다.

예를 들어, 절단 변수의 경우:

Fair : 이 값은 1,610번 나타납니다.
좋음 : 이 값이 4,906번 나타납니다.
매우 좋음 : 이 값은 12,082번 나타납니다.
Premium : 이 값은 13,791번 나타납니다.
이상적 : 이 값은 21,551번 나타납니다.

희미한() 함수를 사용하여 행과 열 수로 데이터세트의 차원을 얻을 수 있습니다.

 #display rows and columns
dim(diamonds)

[1] 53940 10

데이터 세트에 53,940개의 행과 10개의 열이 있는 것을 볼 수 있습니다.

names() 함수를 사용하여 데이터 프레임의 열 이름을 표시할 수도 있습니다.

 #display column names
names(diamonds)

[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"      
[9] “y” “z”

다이아몬드 데이터세트 시각화

데이터 세트의 값을 시각화하기 위해 플롯을 만들 수도 있습니다.

예를 들어 geom_histogram() 함수를 사용하여 특정 변수 값의 히스토그램을 만들 수 있습니다.

 #create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
  geom_histogram(fill=" steelblue ", color=" black ") +
  ggtitle(" Histogram of Price Values ")

또한 geom_point() 함수를 사용하여 변수 쌍별 조합의 포인트 클라우드를 생성할 수도 있습니다.

 #create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) + 
  geom_point()

geom_boxplot() 함수를 사용하여 다른 변수로 그룹화된 변수의 상자 그림을 만들 수도 있습니다.

 #create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) + 
  geom_boxplot(fill=" steelblue ")

이러한 ggplot2 함수를 사용하면 다이아몬드 데이터세트의 변수에 대해 많은 것을 배울 수 있습니다.

추가 리소스

다음 튜토리얼에서는 R에서 다른 데이터 세트를 탐색하는 방법을 설명합니다.

R의 Iris 데이터세트에 대한 완전한 가이드
R의 mtcars 데이터 세트에 대한 전체 가이드

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기