R의 다이아몬드 데이터세트에 대한 완전한 가이드
다이아몬드 데이터세트는 R의 ggplot2 패키지에 내장된 데이터세트입니다.
여기에는 53,940개의 다양한 다이아몬드에 대한 10가지 변수(예: 가격, 색상, 투명도 등)에 대한 측정값이 포함되어 있습니다.
이 튜토리얼에서는 R에서 다이아몬드 데이터세트를 탐색, 요약, 시각화하는 방법을 설명합니다.
다이아몬드 데이터세트 로드
다이아몬드 데이터세트는 ggplot2에 내장된 데이터세트이므로 먼저 ggplot2 패키지를 설치하고(아직 설치하지 않은 경우) 로드해야 합니다.
#install ggplot2 if not already installed
install. packages (' ggplot2 ')
#load ggplot2
library (ggplot2)
ggplot2를 로드한 후에 는 data() 함수를 사용하여 다이아몬드 데이터세트를 로드할 수 있습니다.
data(diamonds)
head() 함수를 사용하여 데이터세트의 처음 6개 행을 살펴볼 수 있습니다.
#view first six rows of diamonds dataset
head(diamonds)
carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
다이아몬드 데이터 세트 요약
summary() 함수를 사용하여 데이터세트의 각 변수를 빠르게 요약할 수 있습니다.
#summarize diamonds dataset
summary(diamonds)
carat cut color clarity depth
Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00
1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00
Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80
Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75
3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50
Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00
D: 2808 (Other): 2531
table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000
1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910
Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530
Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539
3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040
Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800
각 수치 변수에 대해 다음 정보를 볼 수 있습니다.
- Min : 최소값입니다.
- 1st Qu : 1사분위수(25번째 백분위수)의 값입니다.
- 중앙값 : 중앙값입니다.
- 평균 : 평균값입니다.
- 3rd Qu : 3분위수(75번째 백분위수)의 값입니다.
- 최대 : 최대값입니다.
데이터 세트의 범주형 변수(컷, 색상, 선명도)의 경우 각 값의 빈도 수가 표시됩니다.
예를 들어, 절단 변수의 경우:
- Fair : 이 값은 1,610번 나타납니다.
- 좋음 : 이 값이 4,906번 나타납니다.
- 매우 좋음 : 이 값은 12,082번 나타납니다.
- Premium : 이 값은 13,791번 나타납니다.
- 이상적 : 이 값은 21,551번 나타납니다.
희미한() 함수를 사용하여 행과 열 수로 데이터세트의 차원을 얻을 수 있습니다.
#display rows and columns
dim(diamonds)
[1] 53940 10
데이터 세트에 53,940개의 행과 10개의 열이 있는 것을 볼 수 있습니다.
names() 함수를 사용하여 데이터 프레임의 열 이름을 표시할 수도 있습니다.
#display column names
names(diamonds)
[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"
[9] “y” “z”
다이아몬드 데이터세트 시각화
데이터 세트의 값을 시각화하기 위해 플롯을 만들 수도 있습니다.
예를 들어 geom_histogram() 함수를 사용하여 특정 변수 값의 히스토그램을 만들 수 있습니다.
#create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
geom_histogram(fill=" steelblue ", color=" black ") +
ggtitle(" Histogram of Price Values ")
또한 geom_point() 함수를 사용하여 변수 쌍별 조합의 포인트 클라우드를 생성할 수도 있습니다.
#create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) +
geom_point()
geom_boxplot() 함수를 사용하여 다른 변수로 그룹화된 변수의 상자 그림을 만들 수도 있습니다.
#create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) +
geom_boxplot(fill=" steelblue ")
이러한 ggplot2 함수를 사용하면 다이아몬드 데이터세트의 변수에 대해 많은 것을 배울 수 있습니다.
추가 리소스
다음 튜토리얼에서는 R에서 다른 데이터 세트를 탐색하는 방법을 설명합니다.