Um guia completo para o conjunto de dados diamond em r
O conjunto de dados Diamond é um conjunto de dados integrado ao pacote ggplot2 em R.
Ele contém medições de 10 variáveis diferentes (como preço, cor, clareza, etc.) para 53.940 diamantes diferentes.
Este tutorial explica como explorar, resumir e visualizar o conjunto de dados diamante em R.
Carregar conjunto de dados diamante
Como o conjunto de dados Diamond é um conjunto de dados integrado no ggplot2, primeiro precisamos instalar (se ainda não) e carregar o pacote ggplot2:
#install ggplot2 if not already installed
install. packages (' ggplot2 ')
#load ggplot2
library (ggplot2)
Depois de carregar o ggplot2, podemos usar a função data() para carregar o conjunto de dados diamante :
data(diamonds)
Podemos dar uma olhada nas primeiras seis linhas do conjunto de dados usando a função head() :
#view first six rows of diamonds dataset
head(diamonds)
carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
Resuma o conjunto de dados de diamante
Podemos usar a função summary() para resumir rapidamente cada variável no conjunto de dados:
#summarize diamonds dataset
summary(diamonds)
carat cut color clarity depth
Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00
1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00
Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80
Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75
3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50
Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00
D: 2808 (Other): 2531
table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000
1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910
Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530
Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539
3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040
Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800
Para cada uma das variáveis numéricas podemos ver as seguintes informações:
- Min : O valor mínimo.
- 1º Qu : O valor do primeiro quartil (percentil 25).
- Mediana : O valor mediano.
- Média : O valor médio.
- 3º Qu : O valor do terceiro quartil (percentil 75).
- Máx .: O valor máximo.
Para as variáveis categóricas no conjunto de dados (corte, cor e clareza), vemos uma contagem de frequência de cada valor.
Por exemplo, para a variável cut :
- Justo : Este valor aparece 1.610 vezes.
- Bom : este valor aparece 4.906 vezes.
- Muito bom : esse valor aparece 12.082 vezes.
- Premium : Este valor aparece 13.791 vezes.
- Ideal : Este valor aparece 21.551 vezes.
Podemos usar a função dim() para obter as dimensões do conjunto de dados em termos de número de linhas e colunas:
#display rows and columns
dim(diamonds)
[1] 53940 10
Podemos ver que o conjunto de dados possui 53.940 linhas e 10 colunas.
Também podemos usar a funçãonames () para exibir os nomes das colunas do quadro de dados:
#display column names
names(diamonds)
[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"
[9] “y” “z”
Visualize o conjunto de dados Diamonds
Também podemos criar gráficos para visualizar os valores do conjunto de dados.
Por exemplo, podemos usar a função geom_histogram() para criar um histograma dos valores de uma determinada variável:
#create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
geom_histogram(fill=" steelblue ", color=" black ") +
ggtitle(" Histogram of Price Values ")
Também podemos usar a função geom_point() para criar uma nuvem de pontos de qualquer combinação de variáveis em pares:
#create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) +
geom_point()
Também podemos usar a função geom_boxplot() para criar um boxplot de uma variável agrupada por outra variável:
#create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) +
geom_boxplot(fill=" steelblue ")
Usando essas funções ggplot2, podemos aprender muito sobre as variáveis no conjunto de dados Diamond .
Recursos adicionais
Os tutoriais a seguir explicam como explorar outros conjuntos de dados em R:
Um guia completo para o conjunto de dados Iris em R
Um guia completo para o conjunto de dados mtcars em R