คู่มือฉบับสมบูรณ์เกี่ยวกับชุดข้อมูล iris ใน r


ชุดข้อมูล ม่านตา เป็นชุดข้อมูลที่ผสานรวมใน R ซึ่งมีการวัดคุณลักษณะที่แตกต่างกัน 4 แบบ (เป็นเซนติเมตร) สำหรับดอกไม้ 50 ดอกจาก 3 สายพันธุ์ที่แตกต่างกัน

บทช่วยสอนนี้จะอธิบายวิธีสำรวจและสรุปชุดข้อมูลใน R โดยใช้ชุดข้อมูลม่านตาเป็นตัวอย่าง

ที่เกี่ยวข้อง: คู่มือฉบับสมบูรณ์เกี่ยวกับชุดข้อมูล mtcars ใน R

โหลดชุดข้อมูล Iris

เนื่องจากชุดข้อมูลม่านตาเป็นชุดข้อมูลในตัวใน R เราจึงสามารถโหลดได้โดยใช้คำสั่งต่อไปนี้:

 data(iris)

เราสามารถดูหกแถวแรกของชุดข้อมูลได้โดยใช้ฟังก์ชัน head() :

 #view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

สรุปชุดข้อมูล Iris

เราสามารถใช้ฟังก์ชัน summary() เพื่อสรุปตัวแปรแต่ละตัวในชุดข้อมูลได้อย่างรวดเร็ว:

 #summarize iris dataset
summary(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   
 Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100  
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300  
 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300  
 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199  
 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800  
 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500  
       Species  
 setosa:50  
 versicolor:50  
 virginica :50

สำหรับตัวแปรตัวเลขแต่ละตัว เราจะเห็นข้อมูลต่อไปนี้:

  • Min : ค่าต่ำสุด
  • Qu ที่ 1 : ค่าของควอไทล์ที่ 1 (เปอร์เซ็นไทล์ที่ 25)
  • ค่า มัธยฐาน : ค่ามัธยฐาน
  • ค่า เฉลี่ย : ค่าเฉลี่ย
  • Qu ที่สาม : ค่าของควอไทล์ที่สาม (เปอร์เซ็นไทล์ที่ 75)
  • Max : ค่าสูงสุด

สำหรับตัวแปรหมวดหมู่เพียงตัวเดียวในชุดข้อมูล (สปีชีส์) เราจะเห็นการนับความถี่ของแต่ละค่า:

  • setosa : สายพันธุ์นี้มีอยู่ 50 ครั้ง
  • versicolor : สายพันธุ์นี้เกิดขึ้น 50 ครั้ง
  • virginica : พันธุ์นี้มีอยู่ 50 ครั้ง

เราสามารถใช้ฟังก์ชัน dim() เพื่อรับขนาดของชุดข้อมูลในรูปของจำนวนแถวและคอลัมน์:

 #display rows and columns
dim(iris)

[1] 150 5

เราจะเห็นว่าชุดข้อมูลมี 150 แถว และ 5 คอลัมน์

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน ชื่อ () เพื่อแสดงชื่อคอลัมน์ของกรอบข้อมูล:

 #display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"     

แสดงภาพชุดข้อมูล Iris

เรายังสามารถสร้างพล็อตเพื่อแสดงค่าของชุดข้อมูลได้ด้วย

ตัวอย่างเช่น เราสามารถใช้ฟังก์ชัน hist() เพื่อสร้างฮิสโตแกรมของค่าของตัวแปรบางตัว:

 #create histogram of values for sepal length
hist(iris$Sepal.Length,
     col=' steelblue ',
     main=' Histogram ',
     xlab=' Length ',
     ylab=' Frequency ')

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน plot() เพื่อสร้าง Scatterplot ของการรวมตัวแปรแบบคู่:

 #create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col=' steelblue ',
     main=' Scatterplot ',
     xlab=' Sepal Width ',
     ylab=' Sepal Length ',
     pch= 19 ) 

นอกจากนี้เรายังสามารถใช้ฟังก์ชัน boxplot() เพื่อสร้าง boxplot ต่อกลุ่ม:

 #create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main=' Sepal Length by Species ',
        xlab=' Species ',
        ylab=' Sepal Length ',
        col=' steelblue ',
        border=' black ') 

แกน x แสดงค่า 3 ชนิด และแกน y แสดงการกระจายค่าความยาวกลีบเลี้ยงแต่ละชนิด

โครงเรื่องประเภทนี้ช่วยให้เราเห็นได้อย่างรวดเร็วว่าความยาวของกลีบเลี้ยงมีแนวโน้มที่จะยาวที่สุดสำหรับสายพันธุ์เวอร์จินิกา และเล็กที่สุดสำหรับสายพันธุ์เซโตซา

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการสรุปชุดข้อมูลใน R:

วิธีที่ง่ายที่สุดในการสร้างตารางสรุปใน R
วิธีการคำนวณผลสรุปของตัวเลขห้าตัวใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *