R 中波士顿数据集的完整指南


R 中MASS包中的波士顿数据集包含有关马萨诸塞州波士顿郊区的各种属性的信息。

本教程介绍如何在 R 中探索、总结和可视化波士顿数据集。

加载波士顿数据集

在查看Boston数据集之前,我们必须首先加载MASS包:

 library (MASS)

然后我们可以使用head()函数显示数据集的前六行:

 #view first six rows of Boston dataset
head(Boston)

     crim zn indus chas nox rm age dis rad tax ptratio black lstat
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21
  medv
1 24.0
2 21.6
3 34.7
4 33.4
5 36.2
6 28.7

要显示数据集中每个变量的描述,我们可以输入以下内容:

 #view description of each variable in dataset
?Boston

     This data frame contains the following columns:

     'crime' per capita crime rate by town.

     'zn' proportion of residential land zoned for lots over 25,000
          sq.ft.

     'industrial' proportion of non-retail business acres per town.

     'chas' Charles River dummy variable (= 1 if tract bounds river; 0
          otherwise).

     'nox' nitrogen oxides concentration (parts per 10 million).

     'rm' average number of rooms per dwelling.

     'age' proportion of owner-occupied units built prior to 1940.

     'dis' weighted mean of distances to five Boston employment
          centers.

     'rad' index of accessibility to radial highways.

     'tax' full-value property-tax rate per $10,000.

     'ptratio' pupil-teacher ratio by town.

     'black' 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by
          town.

     'lstat' lower status of the population (percent).

     'medv' median value of owner-occupied homes in $1000s.

总结波士顿数据集

我们可以使用summary()函数快速总结数据集中的每个变量:

 #summarize Boston dataset
summary(Boston)

      crim zn indus chas        
 Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000  
 1st Q: 0.08205 1st Q: 0.00 1st Q: 5.19 1st Q: 0.00000  
 Median: 0.25651 Median: 0.00 Median: 9.69 Median: 0.00000  
 Mean: 3.61352 Mean: 11.36 Mean: 11.14 Mean: 0.06917  
 3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.: 18.10 3rd Qu.: 0.00000  
 Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000  
      nox rm age dis        
 Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1,130  
 1st Qu.: 0.4490 1st Qu.: 5.886 1st Qu.: 45.02 1st Qu.: 2.100  
 Median: 0.5380 Median: 6.208 Median: 77.50 Median: 3.207  
 Mean: 0.5547 Mean: 6.285 Mean: 68.57 Mean: 3.795  
 3rd Qu.: 0.6240 3rd Qu.: 6.623 3rd Qu.: 94.08 3rd Qu.: 5.188  
 Max. :0.8710 Max. :8,780 Max. :100.00 Max. :12,127  
      rad tax ptratio black       
 Min. : 1,000 Min. :187.0 Min. :12.60 Min. : 0.32  
 1st Qu.: 4,000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38  
 Median: 5,000 Median: 330.0 Median: 19.05 Median: 391.44  
 Mean: 9.549 Mean: 408.2 Mean: 18.46 Mean: 356.67  
 3rd Qu.:24,000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23  
 Max. :24,000 Max. :711.0 Max. :22.00 Max. :396.90  
     lstat medv      
 Min. : 1.73 Min. : 5.00  
 1st Q: 6.95 1st Q: 17.02  
 Median: 11.36 Median: 21.20  
 Mean:12.65 Mean:22.53  
 3rd Qu.:16.95 3rd Qu.:25.00  
 Max. :37.97 Max. :50.00

对于每个数值变量,我们可以看到以下信息:

  • 最小值:最小值。
  • 第一个 Qu :第一个四分位数(第 25 个百分位数)的值。
  • 中位数:中值。
  • 平均值:平均值。
  • 第三曲:第三个四分位数(第 75 个百分位数)的值。
  • 最大值:最大值。

我们可以使用dim()函数获取数据集的行数和列数维度:

 #display rows and columns
sun(Boston)

[1] 506 14

我们可以看到数据集有506行和14列。

可视化波士顿数据集

我们还可以创建绘图来可视化数据集的值。

例如,我们可以使用hist()函数创建某个变量值的直方图:

 #create histogram of values for 'rm' column
hist(Boston$rm,
     col=' steelblue ',
     main=' Histogram of Rooms per Dwelling ',
     xlab=' Rooms ',
     ylab=' Frequency ')

我们还可以使用plot()函数创建任意变量成对组合的散点图:

 #create scatterplot of median home value vs crime rate
plot(Boston$medv, Boston$crime,
     col=' steelblue ',
     main=' Median Home Value vs. Crime Rate ',
     xlab=' Median Home Value ',
     ylab=' Crime Rate ',
     pch= 19 ) 

我们可以创建一个类似的散点图来可视化数据集中任意两个变量之间的关系。

其他资源

以下教程提供了 R 中其他流行数据集的综合指南:

R 中 Iris 数据集的完整指南
R 中 mtcars 数据集的完整指南
R 中钻石数据集的完整指南

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注