इष्टतम क्लस्टर खोजने के लिए आर में एल्बो विधि का उपयोग कैसे करें

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 16, 2023 मार्गदर्शक शून्य टिप्पणियां

मशीन लर्निंग में सबसे अधिक उपयोग किए जाने वाले क्लस्टरिंग एल्गोरिदम में से एक को के-मीन्स क्लस्टरिंग के रूप में जाना जाता है।

के-मीन्स क्लस्टरिंग एक ऐसी तकनीक है जिसमें हम डेटासेट से प्रत्येक अवलोकन को के क्लस्टर में से एक में रखते हैं।

अंतिम लक्ष्य K क्लस्टर बनाना है जिसमें प्रत्येक क्लस्टर के भीतर अवलोकन एक-दूसरे के समान होते हैं जबकि विभिन्न समूहों में अवलोकन एक-दूसरे से काफी भिन्न होते हैं।

के-मीन्स क्लस्टरिंग करते समय, पहला कदम के के लिए एक मान चुनना है – क्लस्टर की संख्या जिसमें हम अवलोकन रखना चाहते हैं।

K के लिए मान चुनने के सबसे आम तरीकों में से एक को कोहनी विधि के रूप में जाना जाता है, जिसमें x-अक्ष पर समूहों की संख्या और y-अक्ष पर वर्गों के योग के साथ एक प्लॉट बनाना शामिल है, फिर पहचानें जहां कथानक में “घुटना” या मोड़ दिखाई देता है।

एक्स-अक्ष पर वह बिंदु जहां “घुटना” होता है, हमें के-मीन्स क्लस्टरिंग एल्गोरिदम में उपयोग करने के लिए क्लस्टर की इष्टतम संख्या बताता है।

निम्नलिखित उदाहरण दिखाता है कि आर में कोहनी विधि का उपयोग कैसे करें।

उदाहरण: आर में एल्बो विधि का उपयोग करना

इस उदाहरण के लिए, हम आर में निर्मित यूएसएरेस्ट्स डेटासेट का उपयोग करेंगे, जिसमें 1973 में प्रत्येक अमेरिकी राज्य में हत्या, हमले और बलात्कार के लिए प्रति 100,000 लोगों पर गिरफ्तारियों की संख्या, साथ ही प्रत्येक राज्य की शहरी आबादी का प्रतिशत शामिल है। क्षेत्र. , अर्बनपॉप।

निम्नलिखित कोड दिखाता है कि डेटासेट को कैसे लोड किया जाए, लापता मानों वाली पंक्तियों को कैसे हटाया जाए, और डेटासेट में प्रत्येक चर को 0 के माध्य और 1 के मानक विचलन के लिए स्केल किया जाए:

 #load data
df <-USArrests

#remove rows with missing values
df <- na. omitted (df)

#scale each variable to have a mean of 0 and sd of 1
df <- scale(df)

#view first six rows of dataset
head(df)

               Murder Assault UrbanPop Rape
Alabama 1.24256408 0.7828393 -0.5209066 -0.003416473
Alaska 0.50786248 1.1068225 -1.2117642 2.484202941
Arizona 0.07163341 1.4788032 0.9989801 1.042878388
Arkansas 0.23234938 0.2308680 -1.0735927 -0.184916602
California 0.27826823 1.2628144 1.7589234 2.067820292
Colorado 0.02571456 0.3988593 0.8608085 1.864967207

K-मीन्स एल्गोरिदम में उपयोग करने के लिए क्लस्टर की इष्टतम संख्या खोजने के लिए, हम वर्गों के योग में कुल बनाम क्लस्टर की संख्या का एक प्लॉट बनाने के लिए Factoextra पैकेज से fviz_nbclust() फ़ंक्शन का उपयोग करेंगे:

 library (cluster)
library (factoextra)

#create plot of number of clusters vs total within sum of squares
fviz_nbclust(df, kmeans, method = “ wss ”)

आर-बेंड विधि

इस ग्राफ़ में, ऐसा प्रतीत होता है कि k = 4 समूहों पर एक “घुटना” या मोड़ है। यह वह बिंदु है जहां वर्गों के योग में कुल स्थिर होना शुरू होता है।

यह हमें बताता है कि k-मीन्स एल्गोरिदम में उपयोग करने के लिए क्लस्टर की इष्टतम संख्या 4 है।

नोट : यद्यपि हम अधिक समूहों का उपयोग करके वर्गों के योग में कम कुल प्राप्त कर सकते हैं, हम संभवतः प्रशिक्षण डेटा को ओवरफिट कर देंगे और इसलिए के-मीन्स एल्गोरिदम परीक्षण डेटा पर उतना अच्छा काम नहीं करेगा।

हम 4 में से k के लिए इष्टतम मान का उपयोग करके डेटासेट पर k-मीन्स क्लस्टरिंग करने के लिए क्लस्टर पैकेज से kmeans() फ़ंक्शन का उपयोग कर सकते हैं:

 #make this example reproducible
set. seeds (1)

#perform k-means clustering with k = 4 clusters
km <- kmeans(df, centers = 4, nstart = 25)

#view results
km

K-means clustering with 4 clusters of sizes 16, 13, 13, 8

Cluster means:
      Murder Assault UrbanPop Rape
1 -0.4894375 -0.3826001 0.5758298 -0.26165379
2 -0.9615407 -1.1066010 -0.9301069 -0.96676331
3 0.6950701 1.0394414 0.7226370 1.27693964
4 1.4118898 0.8743346 -0.8145211 0.01927104

Vector clustering:
       Alabama Alaska Arizona Arkansas California Colorado 
             4 3 3 4 3 3 
   Connecticut Delaware Florida Georgia Hawaii Idaho 
             1 1 3 4 1 2 
      Illinois Indiana Iowa Kansas Kentucky Louisiana 
             3 1 2 1 2 4 
         Maine Maryland Massachusetts Michigan Minnesota Mississippi 
             2 3 1 3 2 4 
      Missouri Montana Nebraska Nevada New Hampshire New Jersey 
             3 2 2 3 2 1 
    New Mexico New York North Carolina North Dakota Ohio Oklahoma 
             3 3 4 2 1 1 
        Oregon Pennsylvania Rhode Island South Carolina South Dakota Tennessee 
             1 1 1 4 2 4 
         Texas Utah Vermont Virginia Washington West Virginia 
             3 1 2 1 1 2 
     Wisconsin Wyoming 
             2 1 

Within cluster sum of squares by cluster:
[1] 16.212213 11.952463 19.922437 8.316061
 (between_SS / total_SS = 71.2%)

Available components:

[1] "cluster" "centers" "totss" "withinss" "tot.withinss" "betweenss"   
[7] "size" "iter" "ifault"

परिणामों से हम देख सकते हैं कि:

पहले क्लस्टर को 16 राज्यों को सौंपा गया था
दूसरे क्लस्टर को 13 राज्यों को सौंपा गया है
तीसरे क्लस्टर को 13 राज्यों को सौंपा गया है
चौथे क्लस्टर को 8 राज्यों को सौंपा गया है

हम प्रत्येक राज्य के क्लस्टर असाइनमेंट को मूल डेटासेट में भी जोड़ सकते हैं:

 #add cluster assignment to original data
final_data <- cbind(USArrests, cluster = km$cluster)

#view final data
head(final_data)

	Murder Assault UrbanPop Rape cluster
				
Alabama 13.2 236 58 21.2 4
Alaska 10.0 263 48 44.5 2
Arizona 8.1 294 80 31.0 2
Arkansas 8.8 190 50 19.5 4
California 9.0 276 91 40.6 2
Colorado 7.9 204 78 38.7 2

मूल डेटाबेस से प्रत्येक अवलोकन को चार समूहों में से एक में रखा गया था।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल आर में विभिन्न क्लस्टरिंग एल्गोरिदम को चलाने के तरीके पर चरण-दर-चरण उदाहरण प्रदान करते हैं:

के-मीन्स क्लस्टरिंग इन आर: चरण-दर-चरण उदाहरण
आर में के-मेडोइड्स क्लस्टरिंग: चरण-दर-चरण उदाहरण
आर में पदानुक्रमित क्लस्टरिंग: चरण-दर-चरण उदाहरण

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने

उदाहरण: आर में एल्बो विधि का उपयोग करना

अतिरिक्त संसाधन

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

एक टिप्पणी जोड़ने