Полное руководство по набору данных iris в r

К бенджамин андерсон 24 июля, 2023 Гид 0 комментариев

Набор данных ирисов — это интегрированный набор данных в R, который содержит измерения по 4 различным атрибутам (в сантиметрах) для 50 цветов 3 разных видов.

В этом руководстве объясняется, как исследовать и суммировать набор данных в R, используя в качестве примера набор данных радужной оболочки глаза.

Связанный: Полное руководство по набору данных mtcars в R.

Загрузить набор данных Iris

Поскольку набор данных радужной оболочки глаза является встроенным набором данных в R, мы можем загрузить его с помощью следующей команды:

 data(iris)

Мы можем просмотреть первые шесть строк набора данных с помощью функции head() :

 #view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

Обобщить набор данных Iris

Мы можем использовать функцию summary() для быстрого суммирования каждой переменной в наборе данных:

 #summarize iris dataset
summary(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   
 Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100  
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300  
 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300  
 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199  
 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800  
 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500  
       Species  
 setosa:50  
 versicolor:50  
 virginica :50

Для каждой из числовых переменных мы можем увидеть следующую информацию:

Мин : минимальное значение.
1-й Цюй : значение первого квартиля (25-го процентиля).
Медиана : медианное значение.
Среднее : Среднее значение.
3-й Цюй : значение третьего квартиля (75-го процентиля).
Макс : максимальное значение.

Для единственной категориальной переменной в наборе данных (виды) мы видим частоту каждого значения:

setosa : Этот вид присутствует 50 раз.
разноцветный : этот вид встречается 50 раз.
Virginica : Этот вид присутствует 50 раз.

Мы можем использовать функцию dim() , чтобы получить размеры набора данных в виде количества строк и столбцов:

 #display rows and columns
dim(iris)

[1] 150 5

Мы видим, что набор данных состоит из 150 строк и 5 столбцов.

Мы также можем использовать функцию Names() для отображения имен столбцов фрейма данных:

 #display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"

Визуализируйте набор данных Iris

Мы также можем создавать графики для визуализации значений набора данных.

Например, мы можем использовать функцию hist() для создания гистограммы значений определенной переменной:

 #create histogram of values for sepal length
hist(iris$Sepal.Length,
     col=' steelblue ',
     main=' Histogram ',
     xlab=' Length ',
     ylab=' Frequency ')

Мы также можем использовать функциюplot() для создания диаграммы рассеяния любой парной комбинации переменных:

 #create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col=' steelblue ',
     main=' Scatterplot ',
     xlab=' Sepal Width ',
     ylab=' Sepal Length ',
     pch= 19 )

Мы также можем использовать функцию boxplot() для создания коробчатой диаграммы для каждой группы:

 #create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main=' Sepal Length by Species ',
        xlab=' Species ',
        ylab=' Sepal Length ',
        col=' steelblue ',
        border=' black ')

По оси X отображаются три вида, а по оси Y — распределение значений длины чашелистика для каждого вида.

Этот тип графика позволяет нам быстро увидеть, что длина чашелистиков обычно бывает наибольшей у вида Virginica и наименьшей у вида Setosa.

Дополнительные ресурсы

В следующих руководствах более подробно объясняется, как суммировать наборы данных в R:

Самый простой способ создания сводных таблиц в R
Как посчитать сумму пяти чисел в R

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше