คู่มือฉบับสมบูรณ์เกี่ยวกับชุดข้อมูล diamond ใน r


ชุดข้อมูล เพชร เป็นชุดข้อมูลที่สร้างไว้ในแพ็คเกจ ggplot2 ใน R

ประกอบด้วยการวัดตัวแปรที่แตกต่างกัน 10 แบบ (เช่น ราคา สี ความชัดเจน ฯลฯ) สำหรับเพชรที่แตกต่างกัน 53,940 เม็ด

บทช่วยสอนนี้จะอธิบายวิธีการสำรวจ สรุป และแสดงภาพชุดข้อมูล เพชร ใน R

โหลดชุดข้อมูลเพชร

เนื่องจากชุดข้อมูล เพชร เป็นชุดข้อมูลในตัวใน ggplot2 เราจึงต้องติดตั้ง (หากยังไม่ได้ติดตั้ง) และโหลดแพ็คเกจ ggplot2 ก่อน:

 #install ggplot2 if not already installed
install. packages (' ggplot2 ')

#load ggplot2
library (ggplot2)

เมื่อเราโหลด ggplot2 แล้ว เราสามารถใช้ฟังก์ชัน data() เพื่อโหลดชุดข้อมูล เพชร :

 data(diamonds)

เราสามารถดูหกแถวแรกของชุดข้อมูลได้โดยใช้ฟังก์ชัน head() :

 #view first six rows of diamonds dataset
head(diamonds)

  carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48

สรุปชุดข้อมูลเพชร

เราสามารถใช้ฟังก์ชัน summary() เพื่อสรุปตัวแปรแต่ละตัวในชุดข้อมูลได้อย่างรวดเร็ว:

 #summarize diamonds dataset
summary(diamonds)

     carat cut color clarity depth      
 Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00  
 1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00  
 Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80  
 Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75  
 3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50  
 Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00  
                                    D: 2808 (Other): 2531                  
     table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000  
 1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910  
 Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530  
 Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539  
 3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040  
 Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800

สำหรับตัวแปรตัวเลขแต่ละตัว เราจะเห็นข้อมูลต่อไปนี้:

  • Min : ค่าต่ำสุด
  • Qu ที่ 1 : ค่าของควอไทล์ที่ 1 (เปอร์เซ็นไทล์ที่ 25)
  • ค่า มัธยฐาน : ค่ามัธยฐาน
  • ค่า เฉลี่ย : ค่าเฉลี่ย
  • Qu ที่สาม : ค่าของควอไทล์ที่สาม (เปอร์เซ็นไทล์ที่ 75)
  • Max : ค่าสูงสุด

สำหรับตัวแปรหมวดหมู่ในชุดข้อมูล (การตัด สี และความชัดเจน) เราจะเห็นการนับความถี่ของแต่ละค่า

ตัวอย่างเช่น สำหรับตัวแปร การตัด :

  • Fair : ค่านี้ปรากฏ 1,610 ครั้ง
  • ดี : ค่านี้ปรากฏ 4,906 ครั้ง
  • ดีมาก : ค่านี้ปรากฏ 12,082 ครั้ง
  • Premium : ค่านี้ปรากฏ 13,791 ครั้ง
  • อุดมคติ : ค่านี้ปรากฏ 21,551 ครั้ง

เราสามารถใช้ฟังก์ชัน dim() เพื่อรับขนาดของชุดข้อมูลในรูปของจำนวนแถวและคอลัมน์:

 #display rows and columns
dim(diamonds)

[1] 53940 10

เราจะเห็นว่าชุดข้อมูลมี 53,940 แถว และ 10 คอลัมน์

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน ชื่อ () เพื่อแสดงชื่อคอลัมน์ของกรอบข้อมูล:

 #display column names
names(diamonds)

[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"      
[9] “y” “z”     

แสดงภาพชุดข้อมูล Diamonds

เรายังสามารถสร้างพล็อตเพื่อแสดงค่าของชุดข้อมูลได้ด้วย

ตัวอย่างเช่น เราสามารถใช้ฟังก์ชัน geom_histogram() เพื่อสร้างฮิสโตแกรมของค่าของตัวแปรบางตัว:

 #create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
  geom_histogram(fill=" steelblue ", color=" black ") +
  ggtitle(" Histogram of Price Values ")

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน geom_point() เพื่อสร้าง point cloud ของตัวแปรที่รวมกันเป็นคู่:

 #create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) + 
  geom_point()

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน geom_boxplot() เพื่อสร้าง boxplot ของตัวแปรที่จัดกลุ่มตามตัวแปรอื่น:

 #create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) + 
  geom_boxplot(fill=" steelblue ")

การใช้ฟังก์ชัน ggplot2 เหล่านี้ทำให้เราสามารถเรียนรู้ได้มากมายเกี่ยวกับตัวแปรในชุดข้อมูล เพชร

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีสำรวจชุดข้อมูลอื่นๆ ใน R:

คู่มือฉบับสมบูรณ์เกี่ยวกับชุดข้อมูล Iris ใน R
คู่มือฉบับสมบูรณ์เกี่ยวกับชุดข้อมูล mtcars ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *