{"id":4177,"date":"2023-07-13T02:02:15","date_gmt":"2023-07-13T02:02:15","guid":{"rendered":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/"},"modified":"2023-07-13T02:02:15","modified_gmt":"2023-07-13T02:02:15","slug":"reinigungsdaten-in-r","status":"publish","type":"post","link":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/","title":{"rendered":"So f\u00fchren sie eine datenbereinigung in r durch (mit beispiel)"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\"><strong>Unter Datenbereinigung<\/strong> versteht man den Prozess der Umwandlung <a href=\"https:\/\/statorials.org\/de\/rohdaten\/\" target=\"_blank\" rel=\"noopener\">von Rohdaten<\/a> in Daten, die f\u00fcr die Analyse oder Modellbildung geeignet sind.<\/span><\/p>\n<p> <span style=\"color: #000000;\">In den meisten F\u00e4llen umfasst die \u201eBereinigung\u201c eines Datensatzes den Umgang mit fehlenden Werten und doppelten Daten.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Hier sind die g\u00e4ngigsten Methoden zum \u201eBereinigen\u201c eines Datensatzes in R:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Methode 1: Zeilen mit fehlenden Werten entfernen<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove rows with any missing values\n<\/span>df %&gt;% na. <span style=\"color: #3366ff;\">omit<\/span> ()\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\"><strong>Methode 2: Fehlende Werte durch einen anderen Wert ersetzen<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n<span style=\"color: #008000;\">library<\/span> (tidyr)\n\n<span style=\"color: #008080;\">#replace missing values in each numeric column with median value of column\n<\/span>df %&gt;% mutate(across(where(is. <span style=\"color: #3366ff;\">numeric<\/span> ), ~replace_na(., median(., na. <span style=\"color: #3366ff;\">rm<\/span> = <span style=\"color: #008000;\">TRUE<\/span> ))))\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\"><strong>Methode 3: Doppelte Zeilen entfernen<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n\ndf %&gt;% distinct(. <span style=\"color: #3366ff;\">keep_all<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Die folgenden Beispiele zeigen, wie jede dieser Methoden in der Praxis mit dem folgenden Datenrahmen in R verwendet wird, der Informationen \u00fcber verschiedene Basketballspieler enth\u00e4lt:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#create data frame\n<\/span>df &lt;- data. <span style=\"color: #3366ff;\">frame<\/span> (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),\n                 points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8),\n                 rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11),\n                 assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14))\n\n<span style=\"color: #008080;\">#view data frame\n<\/span>df\n\n   team points rebound assists\n1 to 4 9 2\n2 to 4 9 2\n3 B NA 7 NA\n4 C 8 6 7\n5 D 6 8 6\n6 E 12 NA 6\n7 F 14 9 9\n8 G 86 14 10\n9:13:12 NA\n10 I 8 11 14\n<\/strong><\/pre>\n<h2> <span style=\"color: #000000;\"><strong>Beispiel 1: Zeilen mit fehlenden Werten l\u00f6schen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen die folgende Syntax verwenden, um Zeilen mit fehlenden Werten in einer beliebigen Spalte zu entfernen:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove rows with missing values\n<\/span>new_df &lt;- df %&gt;% na. <span style=\"color: #3366ff;\">omit<\/span> ()\n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n   team points rebound assists\n1 to 4 9 2\n2 to 4 9 2\n4 C 8 6 7\n5 D 6 8 6\n7 F 14 9 9\n8 G 86 14 10\n10 I 8 11 14<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Beachten Sie, dass der neue Datenrahmen keine Zeilen mit fehlenden Werten enth\u00e4lt.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Beispiel 2: Fehlende Werte durch einen anderen Wert ersetzen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n<span style=\"color: #008000;\">library<\/span> (tidyr)\n\n<span style=\"color: #008080;\">#replace missing values in each numeric column with median value of column\n<\/span>new_df &lt;-df %&gt;% mutate(across(where(is. <span style=\"color: #3366ff;\">numeric<\/span> ),~replace_na(.,median(.,na. <span style=\"color: #3366ff;\">rm<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )))) \n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n   team points rebound assists\n1 to 4 9 2.0\n2 to 4 9 2.0\n3 B 8 7 6.5\n4 C 8 6 7.0\n5 D 6 8 6.0\n6 E 12 9 6.0\n7 F 14 9 9.0\n8 G 86 14 10.0\n9:13 12 6.5\n10 I 8 11 14.0<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Beachten Sie, dass die fehlenden Werte in jeder numerischen Spalte jeweils durch den Medianwert der Spalte ersetzt wurden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Beachten Sie, dass Sie <strong>den Median<\/strong> in der Formel auch durch <strong>den Mittelwert<\/strong> ersetzen k\u00f6nnen, um fehlende Werte durch den Mittelwert jeder Spalte zu ersetzen.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Hinweis<\/strong> : In diesem Beispiel mussten wir auch das <strong>Tidyr-<\/strong> Paket laden, da die Funktion <strong>drop_na()<\/strong> aus diesem Paket stammt.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Beispiel 3: Doppelte Zeilen entfernen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">Wir k\u00f6nnen die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove duplicate rows\n<\/span>new_df &lt;- df %&gt;% distinct(. <span style=\"color: #3366ff;\">keep_all<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )\n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n  team points rebound assists\n1 to 4 9 2\n2 B NA 7 NA\n3 C 8 6 7\n4 D 6 8 6\n5 E 12 NA 6\n6 F 14 9 9\n7 G 86 14 10\n8:13:12 NA\n9 I 8 11 14<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Beachten Sie, dass die zweite Zeile aus dem Datenrahmen entfernt wurde, da jeder der Werte in der zweiten Zeile Duplikate der Werte in der ersten Zeile war.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Hinweis<\/strong> : Die vollst\u00e4ndige Dokumentation f\u00fcr die dplyr- <strong>diint()-<\/strong> Funktion finden Sie <a href=\"https:\/\/dplyr.tidyverse.org\/reference\/distinct.html\" target=\"_blank\" rel=\"noopener\">hier<\/a> .<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Zus\u00e4tzliche Ressourcen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">In den folgenden Tutorials wird erl\u00e4utert, wie Sie andere h\u00e4ufige Aufgaben in R ausf\u00fchren:<\/span><\/p>\n<p> <a href=\"https:\/\/statorials.org\/de\/gruppenlebenslaufdaten-r\/\" target=\"_blank\" rel=\"noopener\">So gruppieren und fassen Sie Daten in R zusammen<\/a><br \/> <a href=\"https:\/\/statorials.org\/de\/ubersichtstabelle-in-r\/\" target=\"_blank\" rel=\"noopener\">So erstellen Sie \u00dcbersichtstabellen in R<\/a><br \/> <a href=\"https:\/\/statorials.org\/de\/drop_na-in-r\/\" target=\"_blank\" rel=\"noopener\">So l\u00f6schen Sie Zeilen mit fehlenden Werten in R<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Unter Datenbereinigung versteht man den Prozess der Umwandlung von Rohdaten in Daten, die f\u00fcr die Analyse oder Modellbildung geeignet sind. In den meisten F\u00e4llen umfasst die \u201eBereinigung\u201c eines Datensatzes den Umgang mit fehlenden Werten und doppelten Daten. Hier sind die g\u00e4ngigsten Methoden zum \u201eBereinigen\u201c eines Datensatzes in R: Methode 1: Zeilen mit fehlenden Werten entfernen [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials<\/title>\n<meta name=\"description\" content=\"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials\" \/>\n<meta property=\"og:description\" content=\"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-13T02:02:15+00:00\" \/>\n<meta name=\"author\" content=\"Dr. Benjamin Anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr. Benjamin Anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3 Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/\",\"url\":\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/\",\"name\":\"So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/de\/#website\"},\"datePublished\":\"2023-07-13T02:02:15+00:00\",\"dateModified\":\"2023-07-13T02:02:15+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\"},\"description\":\"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Heim\",\"item\":\"https:\/\/statorials.org\/de\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"So f\u00fchren sie eine datenbereinigung in r durch (mit beispiel)\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/de\/#website\",\"url\":\"https:\/\/statorials.org\/de\/\",\"name\":\"Statorials\",\"description\":\"Ihr Leitfaden f\u00fcr statistische Kompetenz !\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/de\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0\",\"name\":\"Dr. Benjamin Anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr. Benjamin Anderson\"},\"description\":\"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen\",\"sameAs\":[\"https:\/\/statorials.org\/de\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials","description":"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/","og_locale":"de_DE","og_type":"article","og_title":"So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials","og_description":"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.","og_url":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/","og_site_name":"Statorials","article_published_time":"2023-07-13T02:02:15+00:00","author":"Dr. Benjamin Anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr. Benjamin Anderson","Gesch\u00e4tzte Lesezeit":"3 Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/","url":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/","name":"So f\u00fchren Sie eine Datenbereinigung in R durch (mit Beispiel) \u2013 Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/de\/#website"},"datePublished":"2023-07-13T02:02:15+00:00","dateModified":"2023-07-13T02:02:15+00:00","author":{"@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0"},"description":"In diesem Tutorial wird anhand eines Beispiels erl\u00e4utert, wie die Datenbereinigung f\u00fcr einen Datensatz in R durchgef\u00fchrt wird.","breadcrumb":{"@id":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/de\/reinigungsdaten-in-r\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Heim","item":"https:\/\/statorials.org\/de\/"},{"@type":"ListItem","position":2,"name":"So f\u00fchren sie eine datenbereinigung in r durch (mit beispiel)"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/de\/#website","url":"https:\/\/statorials.org\/de\/","name":"Statorials","description":"Ihr Leitfaden f\u00fcr statistische Kompetenz !","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/de\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de-DE"},{"@type":"Person","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/ec75c4d6365f2708f8a0ad3a42121aa0","name":"Dr. Benjamin Anderson","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/statorials.org\/de\/#\/schema\/person\/image\/","url":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","contentUrl":"https:\/\/statorials.org\/de\/wp-content\/uploads\/2023\/11\/Benjamin-Anderson-96x96.jpg","caption":"Dr. Benjamin Anderson"},"description":"Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu bef\u00e4higen. Mehr wissen","sameAs":["https:\/\/statorials.org\/de"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/4177"}],"collection":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/comments?post=4177"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/posts\/4177\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/media?parent=4177"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/categories?post=4177"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/de\/wp-json\/wp\/v2\/tags?post=4177"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}