{"id":3060,"date":"2023-07-19T09:55:30","date_gmt":"2023-07-19T09:55:30","guid":{"rendered":"https:\/\/statorials.org\/de\/streik-r\/"},"modified":"2023-07-19T09:55:30","modified_gmt":"2023-07-19T09:55:30","slug":"streik-r","status":"publish","type":"post","link":"https:\/\/statorials.org\/de\/streik-r\/","title":{"rendered":"So verwenden sie smote f\u00fcr unausgeglichene daten in r (mit beispiel)"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\"><span style=\"color: #000000;\">Bei der Arbeit mit <a href=\"https:\/\/statorials.org\/de\/regression-vs.-klassifizierung\/\" target=\"_blank\" rel=\"noopener\">Klassifizierungsalgorithmen<\/a> f\u00fcr maschinelles Lernen sind die Klassen im Datensatz h\u00e4ufig unausgewogen.<\/span><\/span><\/p>\n<p> <span style=\"color: #000000;\">Zum Beispiel:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">In einem Datensatz, der Informationen dar\u00fcber enth\u00e4lt, ob College-Spieler in die NBA eingezogen werden oder nicht, sind m\u00f6glicherweise 98&nbsp;% der Spieler nicht eingezogen und 2&nbsp;% werden eingezogen.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Ein Datensatz, der Informationen dar\u00fcber enth\u00e4lt, ob Patienten an Krebs leiden oder nicht, k\u00f6nnte 99 % der Patienten ohne Krebs und nur 1 % mit Krebs enthalten.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Ein Datensatz mit Bankbetrugsinformationen k\u00f6nnte 96 % legitime Transaktionen und 4 % betr\u00fcgerische Transaktionen enthalten.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Aufgrund dieser unausgeglichenen Klassen funktioniert das von Ihnen erstellte Vorhersagemodell m\u00f6glicherweise nicht gut f\u00fcr die Minderheitsklasse.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Schlimmer noch: Die Minderheitenklasse ist oft diejenige, die wir am meisten vorhersagen m\u00f6chten.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Eine M\u00f6glichkeit, dieses Ungleichgewichtsproblem zu l\u00f6sen, ist die Verwendung <strong>der synthetischen Minderheits-Oversampling-Technik<\/strong> , oft als <strong>SMOTE<\/strong> abgek\u00fcrzt.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Bei dieser Technik wird ein neuer Datensatz durch \u00dcberabtastung von Beobachtungen aus der Minderheitsklasse erstellt, wodurch ein Datensatz mit ausgewogeneren Klassen entsteht.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Der einfachste Weg, SMOTE in R zu verwenden, ist die Verwendung der <strong>SMOTE()-<\/strong> Funktion aus dem <strong>DMwR-<\/strong> Paket.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><span style=\"color: #000000;\">Diese Funktion verwendet die folgende grundlegende Syntax:<\/span><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong>SMOTE(form, data, perc. <span style=\"color: #3366ff;\">over<\/span> = <span style=\"color: #008000;\">200<\/span> , perc. <span style=\"color: #3366ff;\">under<\/span> = <span style=\"color: #008000;\">200<\/span> , ...)\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Gold:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\"><strong>Formular<\/strong> : Eine Formel, die das Modell beschreibt, das Sie anpassen m\u00f6chten<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>data<\/strong> : Name des Datenrahmens<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>perc.over<\/strong> : Zahl, die bestimmt, wie viele zus\u00e4tzliche F\u00e4lle der Minderheitsklasse generiert werden<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>perc.under<\/strong> : Zahl, die bestimmt, wie viele zus\u00e4tzliche F\u00e4lle der Mehrheitsklasse generiert werden<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Das folgende Beispiel zeigt, wie Sie diese Funktion in der Praxis nutzen k\u00f6nnen.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Beispiel: Verwendung von SMOTE in R<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Angenommen, wir haben den folgenden Datensatz mit 100 <a href=\"https:\/\/statorials.org\/de\/beobachtung-in-der-statistik\/\" target=\"_blank\" rel=\"noopener\">Beobachtungen<\/a> in R, von denen 90 eine \u201eJa\u201c-Klasse und 10 eine \u201eNein\u201c-Klasse f\u00fcr die Antwortvariable haben:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#make this example reproducible\n<\/span>set. <span style=\"color: #3366ff;\">seed<\/span> ( <span style=\"color: #008000;\">0<\/span> )\n\n<span style=\"color: #008080;\">#create data frame with one response variable and two predictor variables\n<\/span>df &lt;- data. <span style=\"color: #3366ff;\">frame<\/span> (y=rep(as. <span style=\"color: #3366ff;\">factor<\/span> (c(' <span style=\"color: #ff0000;\">Yes<\/span> ', ' <span style=\"color: #ff0000;\">No<\/span> ')), times=c( <span style=\"color: #008000;\">90<\/span> , <span style=\"color: #008000;\">10<\/span> )),\n                 x1=rnorm( <span style=\"color: #008000;\">100<\/span> ),\n                 x2=rnorm( <span style=\"color: #008000;\">100<\/span> ))\n\n<span style=\"color: #008080;\">#view first six rows of data frame\n<\/span>head(df)\n\n    y x1 x2\n1 Yes 1.2629543 0.7818592\n2 Yes -0.3262334 -0.7767766\n3 Yes 1.3297993 -0.6159899\n4 Yes 1.2724293 0.0465803\n5 Yes 0.4146414 -1.1303858\n6 Yes -1.5399500 0.5767188\n \n<span style=\"color: #008080;\">#view distribution of response variable\n<\/span>table(df$y)\n\n Drowned \n 10 90<\/strong><\/pre>\n<p> <span style=\"color: #000000;\"><span style=\"color: #000000;\">Dies ist ein klassisches Beispiel f\u00fcr einen unausgeglichenen Datensatz, da die Antwortvariable, die wir vorhersagen, 90 Beobachtungen mit der Klasse \u201eJa\u201c und nur 10 Beobachtungen mit der Klasse \u201eNein\u201c aufweist.<\/span><\/span><\/p>\n<p> <span style=\"color: #000000;\">Um einen ausgewogeneren Datensatz zu erstellen, k\u00f6nnen wir die Funktion <strong>SMOTE()<\/strong> aus dem <strong>DMwR-<\/strong> Paket verwenden:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> ( <span style=\"color: #000000;\">DMwR)\n\n<\/span><span style=\"color: #008080;\">#use SMOTE to create new dataset that is more balanced\n<\/span>new_df &lt;- SMOTE(y ~ ., df, perc. <span style=\"color: #3366ff;\">over<\/span> = <span style=\"color: #008000;\">2000<\/span> , perc. <span style=\"color: #3366ff;\">under<\/span> = <span style=\"color: #008000;\">400<\/span> )\n\n<span style=\"color: #008080;\">#view distribution of response variable in new dataset\n<\/span>table(new_df$y)\n\n Drowned \n210,800\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Der resultierende Datensatz enth\u00e4lt 210 Beobachtungen mit \u201eNein\u201c als Klasse und 800 Beobachtungen mit \u201eJa\u201c als Klasse.<\/span><\/p>\n<p> <span style=\"color: #000000;\">So hat die SMOTE-Funktion diesen neuen Datensatz genau erstellt:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Das <strong>perc.over-<\/strong> Argument gab an, dass wir das 2000\/100-fache (oder 20-fache) der Anzahl vorhandener Minderheitenbeobachtungen zum Datensatz hinzuf\u00fcgen wollten. Da im urspr\u00fcnglichen Datensatz 10 Beobachtungen vorhanden waren, haben wir 20*10 = <strong>200 zus\u00e4tzliche Minderheitenbeobachtungen<\/strong> hinzugef\u00fcgt.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Das <strong>perc.under-<\/strong> Argument gab an, dass wir die Anzahl der Mehrheitsbeobachtungen auf das 400\/100-fache (oder 4-fache) der Anzahl der Minderheitsbeobachtungen setzen wollten, die zu den vorhandenen Minderheitsbeobachtungen addiert wurden. Da 200 zus\u00e4tzliche Minderheitsbeobachtungen hinzugef\u00fcgt wurden, haben wir die Anzahl der Mehrheitsbeobachtungen auf 200 * 4 = <strong>800 Mehrheitsbeobachtungen<\/strong> festgelegt.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Das Endergebnis ist ein Datensatz, der immer noch mehr Mehrheitsklassen enth\u00e4lt, aber immer noch ausgewogener ist als der urspr\u00fcngliche Datensatz.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Sie k\u00f6nnen nun den Klassifizierungsalgorithmus Ihrer Wahl an diesen neuen Datensatz anpassen, der bei der Minderheitsklasse eine bessere Leistung erzielen sollte, da dieser neue Datensatz mehr Beobachtungen aus der Minderheitsklasse enth\u00e4lt.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Hinweis<\/strong> : Probieren Sie ruhig mit den Argumenten <strong>perc.over<\/strong> und <strong>perc.under<\/strong> in der SMOTE-Funktion aus, um einen Datensatz zu erhalten, der Ihren Anforderungen entspricht.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Zus\u00e4tzliche Ressourcen<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Die folgenden Tutorials erkl\u00e4ren, wie Sie andere h\u00e4ufige Aufgaben in R ausf\u00fchren:<\/span><\/p>\n<p> <a href=\"https:\/\/statorials.org\/de\/ubersichtstabelle-in-r\/\" target=\"_blank\" rel=\"noopener\">So erstellen Sie \u00dcbersichtstabellen in R<\/a><br \/><a href=\"https:\/\/statorials.org\/de\/wie-man-daten-in-r-normalisiert\/\" target=\"_blank\" rel=\"noopener\">So normalisieren Sie Daten in R<\/a><br \/> <a href=\"https:\/\/statorials.org\/de\/ausreisser-entfernen-r\/\" target=\"_blank\" rel=\"noopener\">So entfernen Sie Ausrei\u00dfer in R<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Bei der Arbeit mit Klassifizierungsalgorithmen f\u00fcr maschinelles Lernen sind die Klassen im Datensatz h\u00e4ufig unausgewogen. Zum Beispiel: In einem Datensatz, der Informationen dar\u00fcber enth\u00e4lt, ob College-Spieler in die NBA eingezogen werden oder nicht, sind m\u00f6glicherweise 98&nbsp;% der Spieler nicht eingezogen und 2&nbsp;% werden eingezogen. Ein Datensatz, der Informationen dar\u00fcber enth\u00e4lt, ob Patienten an Krebs leiden [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials<\/title>\n<meta name=\"description\" content=\"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/de\/streik-r\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials\" \/>\n<meta property=\"og:description\" content=\"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/de\/streik-r\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-19T09:55:30+00:00\" \/>\n<meta name=\"author\" content=\"Dr. Benjamin Anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr. Benjamin Anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3 Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/de\/streik-r\/\",\"url\":\"https:\/\/statorials.org\/de\/streik-r\/\",\"name\":\"So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/de\/#website\"},\"datePublished\":\"2023-07-19T09:55:30+00:00\",\"dateModified\":\"2023-07-19T09:55:30+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\"},\"description\":\"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/de\/streik-r\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/de\/streik-r\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/de\/streik-r\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Heim\",\"item\":\"https:\/\/statorials.org\/de\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"So verwenden sie smote f\u00fcr unausgeglichene daten in r (mit beispiel)\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/de\/#website\",\"url\":\"https:\/\/statorials.org\/de\/\",\"name\":\"Statorials\",\"description\":\"Ihr Leitfaden f\u00fcr statistische Kompetenz !\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/de\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\",\"name\":\"Dr. Benjamin Anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr. Benjamin Anderson\"},\"description\":\"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen\",\"sameAs\":[\"https:\/\/statorials.org\/de\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials","description":"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/de\/streik-r\/","og_locale":"de_DE","og_type":"article","og_title":"So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials","og_description":"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.","og_url":"https:\/\/statorials.org\/de\/streik-r\/","og_site_name":"Statorials","article_published_time":"2023-07-19T09:55:30+00:00","author":"Dr. Benjamin Anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr. Benjamin Anderson","Gesch\u00e4tzte Lesezeit":"3 Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/de\/streik-r\/","url":"https:\/\/statorials.org\/de\/streik-r\/","name":"So verwenden Sie SMOTE f\u00fcr unausgeglichene Daten in R (mit Beispiel) \u2013 Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/de\/#website"},"datePublished":"2023-07-19T09:55:30+00:00","dateModified":"2023-07-19T09:55:30+00:00","author":{"@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0"},"description":"In diesem Tutorial wird erl\u00e4utert, wie Sie SMOTE f\u00fcr unausgeglichene Daten in R verwenden, einschlie\u00dflich eines vollst\u00e4ndigen Beispiels.","breadcrumb":{"@id":"https:\/\/statorials.org\/de\/streik-r\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/de\/streik-r\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/de\/streik-r\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Heim","item":"https:\/\/statorials.org\/de\/"},{"@type":"ListItem","position":2,"name":"So verwenden sie smote f\u00fcr unausgeglichene daten in r (mit beispiel)"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/de\/#website","url":"https:\/\/statorials.org\/de\/","name":"Statorials","description":"Ihr Leitfaden f\u00fcr statistische Kompetenz !","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/de\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de-DE"},{"@type":"Person","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0","name":"Dr. Benjamin Anderson","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/","url":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","contentUrl":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","caption":"Dr. Benjamin Anderson"},"description":"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen","sameAs":["https:\/\/statorials.org\/de"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/3060"}],"collection":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/comments?post=3060"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/3060\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/media?parent=3060"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/categories?post=3060"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/tags?post=3060"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}