R의 보스턴 데이터세트에 대한 완전한 가이드


R의 MASS 패키지에 있는 보스턴 데이터세트에는 매사추세츠 주 보스턴 교외의 다양한 속성에 대한 정보가 포함되어 있습니다.

이 튜토리얼에서는 R에서 보스턴 데이터세트를 탐색, 요약, 시각화하는 방법을 설명합니다.

보스턴 데이터세트 로드

Boston 데이터 세트를 보려면 먼저 MASS 패키지를 로드해야 합니다.

 library (MASS)

그런 다음 head() 함수를 사용하여 데이터세트의 처음 6개 행을 표시할 수 있습니다.

 #view first six rows of Boston dataset
head(Boston)

     crim zn indus chas nox rm age dis rad tax ptratio black lstat
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21
  medv
1 24.0
2 21.6
3 34.7
4 33.4
5 36.2
6 28.7

데이터세트의 각 변수에 대한 설명을 표시하려면 다음을 입력하면 됩니다.

 #view description of each variable in dataset
?Boston

     This data frame contains the following columns:

     'crime' per capita crime rate by town.

     'zn' proportion of residential land zoned for lots over 25,000
          sq.ft.

     'industrial' proportion of non-retail business acres per town.

     'chas' Charles River dummy variable (= 1 if tract bounds river; 0
          otherwise).

     'nox' nitrogen oxides concentration (parts per 10 million).

     'rm' average number of rooms per dwelling.

     'age' proportion of owner-occupied units built prior to 1940.

     'dis' weighted mean of distances to five Boston employment
          centers.

     'rad' index of accessibility to radial highways.

     'tax' full-value property-tax rate per $10,000.

     'ptratio' pupil-teacher ratio by town.

     'black' 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by
          town.

     'lstat' lower status of the population (percent).

     'medv' median value of owner-occupied homes in $1000s.

보스턴 데이터세트 요약

summary() 함수를 사용하여 데이터세트의 각 변수를 빠르게 요약할 수 있습니다.

 #summarize Boston dataset
summary(Boston)

      crim zn indus chas        
 Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000  
 1st Q: 0.08205 1st Q: 0.00 1st Q: 5.19 1st Q: 0.00000  
 Median: 0.25651 Median: 0.00 Median: 9.69 Median: 0.00000  
 Mean: 3.61352 Mean: 11.36 Mean: 11.14 Mean: 0.06917  
 3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.: 18.10 3rd Qu.: 0.00000  
 Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000  
      nox rm age dis        
 Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1,130  
 1st Qu.: 0.4490 1st Qu.: 5.886 1st Qu.: 45.02 1st Qu.: 2.100  
 Median: 0.5380 Median: 6.208 Median: 77.50 Median: 3.207  
 Mean: 0.5547 Mean: 6.285 Mean: 68.57 Mean: 3.795  
 3rd Qu.: 0.6240 3rd Qu.: 6.623 3rd Qu.: 94.08 3rd Qu.: 5.188  
 Max. :0.8710 Max. :8,780 Max. :100.00 Max. :12,127  
      rad tax ptratio black       
 Min. : 1,000 Min. :187.0 Min. :12.60 Min. : 0.32  
 1st Qu.: 4,000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38  
 Median: 5,000 Median: 330.0 Median: 19.05 Median: 391.44  
 Mean: 9.549 Mean: 408.2 Mean: 18.46 Mean: 356.67  
 3rd Qu.:24,000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23  
 Max. :24,000 Max. :711.0 Max. :22.00 Max. :396.90  
     lstat medv      
 Min. : 1.73 Min. : 5.00  
 1st Q: 6.95 1st Q: 17.02  
 Median: 11.36 Median: 21.20  
 Mean:12.65 Mean:22.53  
 3rd Qu.:16.95 3rd Qu.:25.00  
 Max. :37.97 Max. :50.00

각 수치 변수에 대해 다음 정보를 볼 수 있습니다.

  • Min : 최소값입니다.
  • 1st Qu : 1사분위수(25번째 백분위수)의 값입니다.
  • 중앙값 : 중앙값입니다.
  • 평균 : 평균값입니다.
  • 3rd Qu : 3분위수(75번째 백분위수)의 값입니다.
  • 최대 : 최대값입니다.

희미한() 함수를 사용하여 행과 열 수로 데이터세트의 차원을 얻을 수 있습니다.

 #display rows and columns
sun(Boston)

[1] 506 14

데이터 세트에 506개의 행과 14개의 열이 있는 것을 볼 수 있습니다.

보스턴 데이터세트 시각화

데이터 세트의 값을 시각화하기 위해 플롯을 만들 수도 있습니다.

예를 들어, hist() 함수를 사용하여 특정 변수 값의 히스토그램을 만들 수 있습니다.

 #create histogram of values for 'rm' column
hist(Boston$rm,
     col=' steelblue ',
     main=' Histogram of Rooms per Dwelling ',
     xlab=' Rooms ',
     ylab=' Frequency ')

또한 플롯() 함수를 사용하여 변수의 쌍별 조합에 대한 산점도를 만들 수도 있습니다.

 #create scatterplot of median home value vs crime rate
plot(Boston$medv, Boston$crime,
     col=' steelblue ',
     main=' Median Home Value vs. Crime Rate ',
     xlab=' Median Home Value ',
     ylab=' Crime Rate ',
     pch= 19 ) 

데이터세트에 있는 두 변수 간의 관계를 시각화하기 위해 유사한 산점도를 만들 수 있습니다.

추가 리소스

다음 튜토리얼은 R의 다른 인기 데이터 세트에 대한 포괄적인 가이드를 제공합니다.

R의 Iris 데이터세트에 대한 완전한 가이드
R의 mtcars 데이터 세트에 대한 전체 가이드
R의 다이아몬드 데이터세트에 대한 완전한 가이드

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다