{"id":1242,"date":"2023-07-27T04:03:40","date_gmt":"2023-07-27T04:03:40","guid":{"rendered":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/"},"modified":"2023-07-27T04:03:40","modified_gmt":"2023-07-27T04:03:40","slug":"k-bedeutet-gruppierung-in-r","status":"publish","type":"post","link":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/","title":{"rendered":"K-means-clustering in r: schritt-f\u00fcr-schritt-beispiel"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\">Clustering ist eine Technik des maschinellen Lernens, die versucht, <em>Gruppen<\/em> von <a href=\"https:\/\/statorials.org\/de\/beobachtung-in-der-statistik\/\" target=\"_blank\" rel=\"noopener noreferrer\">Beobachtungen<\/a> innerhalb eines Datensatzes zu finden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Das Ziel besteht darin, Cluster zu finden, bei denen die Beobachtungen innerhalb jedes Clusters einander recht \u00e4hnlich sind, w\u00e4hrend sich die Beobachtungen in verschiedenen Clustern deutlich voneinander unterscheiden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Clustering ist eine Form des <a href=\"https:\/\/statorials.org\/de\/uberwachtes-vs.-unbeaufsichtigtes-lernen\/\" target=\"_blank\" rel=\"noopener noreferrer\">unbeaufsichtigten Lernens,<\/a> da wir lediglich versuchen, die Struktur innerhalb eines Datensatzes zu finden, anstatt den Wert einer <a href=\"https:\/\/statorials.org\/de\/variablen-erklarende-antworten\/\" target=\"_blank\" rel=\"noopener noreferrer\">Antwortvariablen<\/a> vorherzusagen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Clustering wird h\u00e4ufig im Marketing eingesetzt, wenn Unternehmen Zugriff auf Informationen haben wie:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Haushaltseinkommen<\/span><\/li>\n<li> <span style=\"color: #000000;\">Gr\u00f6\u00dfe des Haushalts<\/span><\/li>\n<li> <span style=\"color: #000000;\">Leiter des Haushaltsberufs<\/span><\/li>\n<li> <span style=\"color: #000000;\">Entfernung zum n\u00e4chstgelegenen Stadtgebiet<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Wenn diese Informationen verf\u00fcgbar sind, kann Clustering verwendet werden, um Haushalte zu identifizieren, die \u00e4hnlich sind und m\u00f6glicherweise eher bestimmte Produkte kaufen oder besser auf eine bestimmte Art von Werbung reagieren.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Eine der h\u00e4ufigsten Formen des Clusterings ist das sogenannte <strong>K-Means-Clustering<\/strong> .<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Was ist K-Means-Clustering?<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">K-Means-Clustering ist eine Technik, bei der wir jede Beobachtung aus einem Datensatz in einem von <em>K<\/em> Clustern platzieren.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Das Endziel besteht darin, <em>K-<\/em> Cluster zu haben, in denen die Beobachtungen innerhalb jedes Clusters einander ziemlich \u00e4hnlich sind, w\u00e4hrend sich die Beobachtungen in verschiedenen Clustern deutlich voneinander unterscheiden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">In der Praxis verwenden wir die folgenden Schritte, um K-Means-Clustering durchzuf\u00fchren:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1. W\u00e4hlen Sie einen Wert f\u00fcr <em>K.<\/em><\/strong><\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Zun\u00e4chst m\u00fcssen wir entscheiden, wie viele Cluster wir in den Daten identifizieren m\u00f6chten. Oft m\u00fcssen wir einfach mehrere verschiedene Werte f\u00fcr <em>K<\/em> testen und die Ergebnisse analysieren, um zu sehen, welche Anzahl von Clustern f\u00fcr ein bestimmtes Problem am sinnvollsten erscheint.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\"><strong>2. Ordnen Sie jede Beobachtung zuf\u00e4llig einem Anfangscluster von 1 bis <em>K<\/em> zu.<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>3. F\u00fchren Sie das folgende Verfahren aus, bis sich die Clusterzuweisungen nicht mehr \u00e4ndern.<\/strong><\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Berechnen Sie f\u00fcr jeden der <em>K-<\/em> Cluster den <em>Schwerpunkt des Clusters.<\/em> Dies ist einfach der Vektor der <em>p-<\/em> Mittelwert-Merkmale f\u00fcr die Beobachtungen des <em>k-ten<\/em> Clusters.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Ordnen Sie jede Beobachtung dem Cluster mit dem n\u00e4chstgelegenen Schwerpunkt zu. Hier wird <em>der Abstand<\/em> mithilfe <a href=\"https:\/\/en.wikipedia.org\/wiki\/Euclidean_distance#Squared_Euclidean_distance\" target=\"_blank\" rel=\"noopener noreferrer\">des euklidischen Abstands<\/a> definiert.<\/span><\/li>\n<\/ul>\n<h3> <span style=\"color: #000000;\"><strong>K-Means-Clustering in R<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Das folgende Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Schritt 1: Laden Sie die erforderlichen Pakete<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Zuerst laden wir zwei Pakete, die mehrere n\u00fctzliche Funktionen f\u00fcr das K-Means-Clustering in R enthalten.<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #993300;\">library<\/span> (factoextra)\n<span style=\"color: #993300;\">library<\/span> (cluster)<\/strong><\/pre>\n<h3> <span style=\"color: #000000;\"><strong>Schritt 2: Daten laden und vorbereiten<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">F\u00fcr dieses Beispiel verwenden wir den in R integrierten Datensatz <em>\u201eUSArrests<\/em> \u201c, der die Anzahl der Festnahmen pro 100.000 Einwohner in jedem US-Bundesstaat im Jahr 1973 wegen <em>Mordes<\/em> , <em>K\u00f6rperverletzung<\/em> und <em>Vergewaltigung<\/em> sowie den Prozentsatz der Stadtbev\u00f6lkerung jedes Bundesstaates enth\u00e4lt Bereiche. , <em>UrbanPop<\/em> .<\/span><\/p>\n<p> <span style=\"color: #000000;\">Der folgende Code zeigt, wie Sie Folgendes tun:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Laden Sie den <em>USArrests-<\/em> Datensatz<\/span><\/li>\n<li> <span style=\"color: #000000;\">Entfernen Sie alle Zeilen mit fehlenden Werten<\/span><\/li>\n<li> <span style=\"color: #000000;\">Skalieren Sie jede Variable im Datensatz so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 hat<\/span><\/li>\n<\/ul>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#load data<\/span>\ndf &lt;-USArrests\n\n<span style=\"color: #008080;\">#remove rows with missing values<\/span><\/strong>\n<strong>df &lt;- na. <span style=\"color: #3366ff;\">omitted<\/span> (df)\n\n<span style=\"color: #008080;\">#scale each variable to have a mean of 0 and sd of 1<\/span><\/strong>\n<strong>df &lt;- scale(df)\n\n<span style=\"color: #008080;\">#view first six rows of dataset<\/span>\nhead(df)\n\n               Murder Assault UrbanPop Rape\nAlabama 1.24256408 0.7828393 -0.5209066 -0.003416473\nAlaska 0.50786248 1.1068225 -1.2117642 2.484202941\nArizona 0.07163341 1.4788032 0.9989801 1.042878388\nArkansas 0.23234938 0.2308680 -1.0735927 -0.184916602\nCalifornia 0.27826823 1.2628144 1.7589234 2.067820292\nColorado 0.02571456 0.3988593 0.8608085 1.864967207\n<\/strong><\/pre>\n<h3> <span style=\"color: #000000;\"><strong>Schritt 3: Finden Sie die optimale Anzahl an Clustern<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Um k-means-Clustering in R durchzuf\u00fchren, k\u00f6nnen wir die integrierte Funktion <strong>kmeans()<\/strong> verwenden, die die folgende Syntax verwendet:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>kmeans (Daten, Zentren, nstart)<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\">Gold:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\"><strong>data:<\/strong> Name des Datensatzes.<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>Zentren:<\/strong> Die Anzahl der Cluster, bezeichnet mit <em>k<\/em> .<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>nstart:<\/strong> die Anzahl der Erstkonfigurationen. Da es m\u00f6glich ist, dass unterschiedliche anf\u00e4ngliche Startcluster zu unterschiedlichen Ergebnissen f\u00fchren, wird empfohlen, mehrere unterschiedliche anf\u00e4ngliche Konfigurationen zu verwenden. Der k-means-Algorithmus findet die Anfangskonfigurationen, die zur kleinsten Variation innerhalb des Clusters f\u00fchren.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Da wir nicht im Voraus wissen, wie viele Cluster optimal sind, erstellen wir zwei verschiedene Diagramme, die uns bei der Entscheidung helfen k\u00f6nnen:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1. Anzahl der Cluster im Verh\u00e4ltnis zur Gesamtsumme in Quadratsumme<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\">Zuerst verwenden wir die Funktion <strong>fviz_nbclust()<\/strong> , um ein Diagramm der Anzahl der Cluster im Vergleich zur Gesamtsumme der Quadrate zu erstellen:<\/span> <\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong>fviz_nbclust(df, kmeans, method = \u201c <span style=\"color: #008000;\">wss<\/span> \u201d)<\/strong> <\/pre>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12310 \" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/kmmoyenne1.png\" alt=\"Optimale Anzahl von Clustern beim k-Means-Clustering\" width=\"444\" height=\"434\" srcset=\"\" sizes=\"\"><\/p>\n<p> <span style=\"color: #000000;\">Wenn wir diese Art von Diagramm erstellen, suchen wir normalerweise nach einem \u201eKnie\u201c, an dem die Summe der Quadrate beginnt, sich zu \u201ebiegen\u201c oder einzuebnen. Dies ist im Allgemeinen die optimale Anzahl von Clustern.<\/span><\/p>\n<p> <span style=\"color: #000000;\">F\u00fcr dieses Diagramm scheint es, dass es bei k = 4 Clustern einen kleinen Knick oder eine \u201eKr\u00fcmmung\u201c gibt.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>2. Anzahl der Cluster im Vergleich zur L\u00fcckenstatistik<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\">Eine andere M\u00f6glichkeit, die optimale Anzahl von Clustern zu bestimmen, besteht darin, eine Metrik namens <a style=\"color: #000000;\" href=\"https:\/\/web.stanford.edu\/~hastie\/Papers\/gap.pdf\" target=\"_blank\" rel=\"noopener noreferrer\">Abweichungsstatistik<\/a> zu verwenden, die die gesamte Variation innerhalb des Clusters f\u00fcr verschiedene Werte von k mit ihren erwarteten Werten f\u00fcr eine Verteilung ohne Clustering vergleicht.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen die L\u00fcckenstatistik f\u00fcr jede Anzahl von Clustern mit der Funktion <strong>clusGap()<\/strong> aus dem <em>Clusterpaket<\/em> berechnen und die Cluster mit der L\u00fcckenstatistik mit der Funktion <strong>fviz_gap_stat()<\/strong> grafisch darstellen:<\/span> <\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#calculate gap statistic based on number of clusters\n<\/span>gap_stat &lt;- clusGap(df,\n                    FUN = kmeans,\n                    nstart = 25,\n                    K.max = 10,\n                    B = 50)\n\n<span style=\"color: #008080;\">#plot number of clusters vs. gap statistic\n<\/span>fviz_gap_stat(gap_stat)<\/strong> <\/pre>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12311 \" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/moyenne-km2.png\" alt=\"Abweichungsstatistik f\u00fcr die optimale Anzahl von Clustern\" width=\"454\" height=\"445\" srcset=\"\" sizes=\"\"><\/p>\n<p> <span style=\"color: #000000;\">Aus der Grafik k\u00f6nnen wir ersehen, dass die L\u00fcckenstatistik bei k = 4 Clustern am h\u00f6chsten ist, was der Ellbogenmethode entspricht, die wir zuvor verwendet haben.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Schritt 4: F\u00fchren Sie K-Means-Clustering mit optimalem <em>K<\/em> durch<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Schlie\u00dflich k\u00f6nnen wir ein k-Means-Clustering f\u00fcr den Datensatz durchf\u00fchren, indem wir den optimalen Wert f\u00fcr <em>k<\/em> von 4 verwenden:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#make this example reproducible\n<span style=\"color: #000000;\">set.seed(1)<\/span>\n\n#perform k-means clustering with k = 4 clusters\n<\/span>km &lt;- kmeans(df, centers = 4, nstart = 25)\n\n<span style=\"color: #008080;\">#view results\n<\/span>km\n\nK-means clustering with 4 clusters of sizes 16, 13, 13, 8\n\nCluster means:\n      Murder Assault UrbanPop Rape\n1 -0.4894375 -0.3826001 0.5758298 -0.26165379\n2 -0.9615407 -1.1066010 -0.9301069 -0.96676331\n3 0.6950701 1.0394414 0.7226370 1.27693964\n4 1.4118898 0.8743346 -0.8145211 0.01927104\n\nVector clustering:\n       Alabama Alaska Arizona Arkansas California Colorado \n             4 3 3 4 3 3 \n   Connecticut Delaware Florida Georgia Hawaii Idaho \n             1 1 3 4 1 2 \n      Illinois Indiana Iowa Kansas Kentucky Louisiana \n             3 1 2 1 2 4 \n         Maine Maryland Massachusetts Michigan Minnesota Mississippi \n             2 3 1 3 2 4 \n      Missouri Montana Nebraska Nevada New Hampshire New Jersey \n             3 2 2 3 2 1 \n    New Mexico New York North Carolina North Dakota Ohio Oklahoma \n             3 3 4 2 1 1 \n        Oregon Pennsylvania Rhode Island South Carolina South Dakota Tennessee \n             1 1 1 4 2 4 \n         Texas Utah Vermont Virginia Washington West Virginia \n             3 1 2 1 1 2 \n     Wisconsin Wyoming \n             2 1 \n\nWithin cluster sum of squares by cluster:\n[1] 16.212213 11.952463 19.922437 8.316061\n (between_SS \/ total_SS = 71.2%)\n\nAvailable components:\n\n[1] \"cluster\" \"centers\" \"totss\" \"withinss\" \"tot.withinss\" \"betweenss\"   \n[7] \"size\" \"iter\" \"ifault\"         \n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Anhand der Ergebnisse k\u00f6nnen wir Folgendes erkennen:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Dem ersten Cluster wurden <b>16<\/b> Staaten zugeordnet<\/span><\/li>\n<li> <span style=\"color: #000000;\">Dem zweiten Cluster sind <strong>13<\/strong> Staaten zugeordnet<\/span><\/li>\n<li> <span style=\"color: #000000;\">Dem dritten Cluster wurden <strong>13<\/strong> Staaten zugeordnet<\/span><\/li>\n<li> <span style=\"color: #000000;\">Dem vierten Cluster wurden <b>8<\/b> Staaten zugeordnet<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Mit der Funktion <strong>fivz_cluster()<\/strong> k\u00f6nnen wir die Cluster in einem Streudiagramm visualisieren, das die ersten beiden Hauptkomponenten auf den Achsen anzeigt:<\/span> <\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#plot results of final k-means model\n<span style=\"color: #000000;\">fviz_cluster(km, data = df)\n<\/span><\/span><\/strong><\/pre>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12313 \" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/kmmoyenne4.png\" alt=\"K-bedeutet Clustering-Plot in R\" width=\"475\" height=\"472\" srcset=\"\" sizes=\"\"><\/p>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen auch die Funktion <strong>Aggregate()<\/strong> verwenden, um den Durchschnitt der Variablen in jedem Cluster zu ermitteln:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#find means of each cluster\n<span style=\"color: #000000;\">aggregate(USArrests, by= <span style=\"color: #3366ff;\">list<\/span> (cluster=km$cluster), mean)\n\ncluster Murder Assault UrbanPop Rape\n\t\t\t\t\n1 3.60000 78.53846 52.07692 12.17692\n2 10.81538 257.38462 76.00000 33.19231\n3 5.65625 138.87500 73.87500 18.78125\n4 13.93750 243.62500 53.75000 21.41250\n<\/span><\/span><\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Wir interpretieren diese Ausgabe wie folgt:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Die durchschnittliche Zahl der Morde pro 100.000 Einwohner in den Staaten der Gruppe 1 betr\u00e4gt <strong>3,6<\/strong> .<\/span><\/li>\n<li> <span style=\"color: #000000;\">Die durchschnittliche Zahl der \u00dcbergriffe pro 100.000 B\u00fcrger betr\u00e4gt in den Staaten der Gruppe 1 <strong>78,5<\/strong> .<\/span><\/li>\n<li> <span style=\"color: #000000;\">Der durchschnittliche Prozentsatz der Einwohner, die in einem st\u00e4dtischen Gebiet in den Staaten der Gruppe 1 leben, betr\u00e4gt <b>52,1 %<\/b> .<\/span><\/li>\n<li> <span style=\"color: #000000;\">Die durchschnittliche Zahl der Vergewaltigungen pro 100.000 B\u00fcrger betr\u00e4gt in den Staaten der Gruppe 1 <strong>12,2<\/strong> <strong>.<\/strong><\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Und so weiter.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen auch die Clusterzuordnungen jedes Staates zum Originaldatensatz hinzuf\u00fcgen:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#add cluster assignment to original data\n<span style=\"color: #000000;\">final_data &lt;- cbind(USArrests, cluster = km$cluster)\n<\/span>\n#view final data\n<span style=\"color: #000000;\">head(final_data)\n\n\t<\/span><span style=\"color: #000000;\">Murder Assault UrbanPop<\/span> <span style=\"color: #000000;\">Rape<\/span> <span style=\"color: #000000;\">cluster\n\t\t\t\t\nAlabama<\/span> <span style=\"color: #000000;\">13.2<\/span> <span style=\"color: #000000;\">236 58<\/span> <span style=\"color: #000000;\">21.2<\/span> <span style=\"color: #000000;\">4\nAlaska<\/span> <span style=\"color: #000000;\">10.0 263 48<\/span> <span style=\"color: #000000;\">44.5<\/span> <span style=\"color: #000000;\">2\nArizona<\/span> <span style=\"color: #000000;\">8.1 294 80<\/span> <span style=\"color: #000000;\">31.0<\/span> <span style=\"color: #000000;\">2\nArkansas<\/span> <span style=\"color: #000000;\">8.8 190 50<\/span> <span style=\"color: #000000;\">19.5<\/span> <span style=\"color: #000000;\">4\nCalifornia<\/span> <span style=\"color: #000000;\">9.0 276 91<\/span> <span style=\"color: #000000;\">40.6<\/span> <span style=\"color: #000000;\">2\nColorado<\/span> <span style=\"color: #000000;\">7.9 204 78<\/span> <span style=\"color: #000000;\">38.7<\/span> <span style=\"color: #000000;\">2\n<\/span><\/span><\/strong><\/pre>\n<h3> <span style=\"color: #000000;\"><strong>Vor- und Nachteile von K-Means-Clustering<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">K-Means-Clustering bietet die folgenden Vorteile:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Es ist ein schneller Algorithmus.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Es kann gro\u00dfe Datenmengen gut verarbeiten.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Es hat jedoch die folgenden potenziellen Nachteile:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Dies erfordert, dass wir die Anzahl der Cluster angeben, bevor wir den Algorithmus ausf\u00fchren.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Es reagiert empfindlich auf Ausrei\u00dfer.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Zwei Alternativen zum K-Means-Clustering sind <a href=\"https:\/\/statorials.org\/de\/k-medoide-in-r\/\" target=\"_blank\" rel=\"noopener noreferrer\">das K-Means-Clustering<\/a> und das hierarchische Clustering.<\/span><\/p>\n<hr>\n<p> <span style=\"color: #000000;\">Den vollst\u00e4ndigen R-Code, der in diesem Beispiel verwendet wird, finden Sie <a href=\"https:\/\/github.com\/Statorials\/R-Guides\/blob\/main\/k_means.R\" target=\"_blank\" rel=\"noopener noreferrer\">hier<\/a> .<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Clustering ist eine Technik des maschinellen Lernens, die versucht, Gruppen von Beobachtungen innerhalb eines Datensatzes zu finden. Das Ziel besteht darin, Cluster zu finden, bei denen die Beobachtungen innerhalb jedes Clusters einander recht \u00e4hnlich sind, w\u00e4hrend sich die Beobachtungen in verschiedenen Clustern deutlich voneinander unterscheiden. Clustering ist eine Form des unbeaufsichtigten Lernens, da wir lediglich [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik<\/title>\n<meta name=\"description\" content=\"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik\" \/>\n<meta property=\"og:description\" content=\"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-27T04:03:40+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/kmmoyenne1.png\" \/>\n<meta name=\"author\" content=\"Dr. Benjamin Anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr. Benjamin Anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"7 Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/\",\"url\":\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/\",\"name\":\"K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/de\/#website\"},\"datePublished\":\"2023-07-27T04:03:40+00:00\",\"dateModified\":\"2023-07-27T04:03:40+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\"},\"description\":\"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Heim\",\"item\":\"https:\/\/statorials.org\/de\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"K-means-clustering in r: schritt-f\u00fcr-schritt-beispiel\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/de\/#website\",\"url\":\"https:\/\/statorials.org\/de\/\",\"name\":\"Statorials\",\"description\":\"Ihr Leitfaden f\u00fcr statistische Kompetenz !\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/de\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\",\"name\":\"Dr. Benjamin Anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr. Benjamin Anderson\"},\"description\":\"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen\",\"sameAs\":[\"https:\/\/statorials.org\/de\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik","description":"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/","og_locale":"de_DE","og_type":"article","og_title":"K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik","og_description":"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.","og_url":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/","og_site_name":"Statorials","article_published_time":"2023-07-27T04:03:40+00:00","og_image":[{"url":"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/kmmoyenne1.png"}],"author":"Dr. Benjamin Anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr. Benjamin Anderson","Gesch\u00e4tzte Lesezeit":"7 Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/","url":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/","name":"K-Means-Clustering in R: Schritt-f\u00fcr-Schritt-Beispiel \u2013 Statistik","isPartOf":{"@id":"https:\/\/statorials.org\/de\/#website"},"datePublished":"2023-07-27T04:03:40+00:00","dateModified":"2023-07-27T04:03:40+00:00","author":{"@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0"},"description":"Dieses Tutorial bietet ein schrittweises Beispiel f\u00fcr die Durchf\u00fchrung von K-Means-Clustering in R.","breadcrumb":{"@id":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/de\/k-bedeutet-gruppierung-in-r\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Heim","item":"https:\/\/statorials.org\/de\/"},{"@type":"ListItem","position":2,"name":"K-means-clustering in r: schritt-f\u00fcr-schritt-beispiel"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/de\/#website","url":"https:\/\/statorials.org\/de\/","name":"Statorials","description":"Ihr Leitfaden f\u00fcr statistische Kompetenz !","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/de\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de-DE"},{"@type":"Person","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0","name":"Dr. Benjamin Anderson","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/","url":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","contentUrl":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","caption":"Dr. Benjamin Anderson"},"description":"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen","sameAs":["https:\/\/statorials.org\/de"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/1242"}],"collection":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/comments?post=1242"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/1242\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/media?parent=1242"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/categories?post=1242"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/tags?post=1242"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}