{"id":4179,"date":"2023-07-13T02:02:15","date_gmt":"2023-07-13T02:02:15","guid":{"rendered":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/"},"modified":"2023-07-13T02:02:15","modified_gmt":"2023-07-13T02:02:15","slug":"reinigingsgegevens-in-r","status":"publish","type":"post","link":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/","title":{"rendered":"Gegevensopschoning uitvoeren in r (met voorbeeld)"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\"><strong>Gegevensopschoning<\/strong> verwijst naar het proces waarbij <a href=\"https:\/\/statorials.org\/nl\/ruwe-data\/\" target=\"_blank\" rel=\"noopener\">ruwe gegevens<\/a> worden omgezet in gegevens die geschikt zijn voor analyse of modelbouw.<\/span><\/p>\n<p> <span style=\"color: #000000;\">In de meeste gevallen omvat het \u2018opschonen\u2019 van een dataset het omgaan met ontbrekende waarden en dubbele gegevens.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Hier zijn de meest gebruikelijke methoden voor het &#8222;opschonen&#8220; van een dataset in R:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Methode 1: Rijen met ontbrekende waarden verwijderen<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove rows with any missing values\n<\/span>df %&gt;% na. <span style=\"color: #3366ff;\">omit<\/span> ()\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\"><strong>Methode 2: Vervang ontbrekende waarden door een andere waarde<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n<span style=\"color: #008000;\">library<\/span> (tidyr)\n\n<span style=\"color: #008080;\">#replace missing values in each numeric column with median value of column\n<\/span>df %&gt;% mutate(across(where(is. <span style=\"color: #3366ff;\">numeric<\/span> ), ~replace_na(., median(., na. <span style=\"color: #3366ff;\">rm<\/span> = <span style=\"color: #008000;\">TRUE<\/span> ))))\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\"><strong>Methode 3: Dubbele rijen verwijderen<\/strong><\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #107d3f;\">library<\/span> (dplyr)\n\ndf %&gt;% distinct(. <span style=\"color: #3366ff;\">keep_all<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">De volgende voorbeelden laten zien hoe u elk van deze methoden in de praktijk kunt gebruiken met het volgende dataframe in R dat informatie bevat over verschillende basketbalspelers:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#create data frame\n<\/span>df &lt;- data. <span style=\"color: #3366ff;\">frame<\/span> (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),\n                 points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8),\n                 rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11),\n                 assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14))\n\n<span style=\"color: #008080;\">#view data frame\n<\/span>df\n\n   team points rebound assists\n1 to 4 9 2\n2 to 4 9 2\n3 B NA 7 NA\n4 C 8 6 7\n5 D 6 8 6\n6 E 12 NA 6\n7 F 14 9 9\n8 G 86 14 10\n9:13:12 NA\n10 I 8 11 14\n<\/strong><\/pre>\n<h2> <span style=\"color: #000000;\"><strong>Voorbeeld 1: rijen met ontbrekende waarden verwijderen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">We kunnen de volgende syntaxis gebruiken om rijen met ontbrekende waarden in elke kolom te verwijderen:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove rows with missing values\n<\/span>new_df &lt;- df %&gt;% na. <span style=\"color: #3366ff;\">omit<\/span> ()\n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n   team points rebound assists\n1 to 4 9 2\n2 to 4 9 2\n4 C 8 6 7\n5 D 6 8 6\n7 F 14 9 9\n8 G 86 14 10\n10 I 8 11 14<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Houd er rekening mee dat het nieuwe gegevensframe geen rijen met ontbrekende waarden bevat.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Voorbeeld 2: Vervang ontbrekende waarden door een andere waarde<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">We kunnen de volgende syntaxis gebruiken om ontbrekende waarden te vervangen door de mediaanwaarde van elke kolom:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n<span style=\"color: #008000;\">library<\/span> (tidyr)\n\n<span style=\"color: #008080;\">#replace missing values in each numeric column with median value of column\n<\/span>new_df &lt;-df %&gt;% mutate(across(where(is. <span style=\"color: #3366ff;\">numeric<\/span> ),~replace_na(.,median(.,na. <span style=\"color: #3366ff;\">rm<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )))) \n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n   team points rebound assists\n1 to 4 9 2.0\n2 to 4 9 2.0\n3 B 8 7 6.5\n4 C 8 6 7.0\n5 D 6 8 6.0\n6 E 12 9 6.0\n7 F 14 9 9.0\n8 G 86 14 10.0\n9:13 12 6.5\n10 I 8 11 14.0<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Merk op dat de ontbrekende waarden in elke numerieke kolom elk zijn vervangen door de mediaanwaarde van de kolom.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Merk op dat u <strong>de mediaan<\/strong> in de formule ook kunt vervangen door <strong>het gemiddelde<\/strong> om ontbrekende waarden te vervangen door de gemiddelde waarde van elke kolom.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Opmerking<\/strong> : in dit voorbeeld moesten we ook het <strong>Tidyr-<\/strong> pakket laden omdat de <strong>drop_na()-<\/strong> functie uit dat pakket komt.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Voorbeeld 3: Dubbele rijen verwijderen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">We kunnen de volgende syntaxis gebruiken om ontbrekende waarden te vervangen door de mediaanwaarde van elke kolom:<\/span><\/p>\n<pre style=\"background-color: #ececec; font-size: 15px;\"> <strong><span style=\"color: #008000;\">library<\/span> (dplyr)\n\n<span style=\"color: #008080;\">#remove duplicate rows\n<\/span>new_df &lt;- df %&gt;% distinct(. <span style=\"color: #3366ff;\">keep_all<\/span> = <span style=\"color: #008000;\">TRUE<\/span> )\n\n<span style=\"color: #008080;\">#view new data frame\n<\/span>new_df\n\n  team points rebound assists\n1 to 4 9 2\n2 B NA 7 NA\n3 C 8 6 7\n4 D 6 8 6\n5 E 12 NA 6\n6 F 14 9 9\n7 G 86 14 10\n8:13:12 NA\n9 I 8 11 14<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Merk op dat de tweede rij uit het dataframe is verwijderd omdat elk van de waarden in de tweede rij duplicaten waren van de waarden in de eerste rij.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Opmerking<\/strong> : u kunt <a href=\"https:\/\/dplyr.tidyverse.org\/reference\/distinct.html\" target=\"_blank\" rel=\"noopener\">hier<\/a> de volledige documentatie voor de functie dplyr <strong>different()<\/strong> vinden.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Aanvullende bronnen<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:<\/span><\/p>\n<p> <a href=\"https:\/\/statorials.org\/nl\/groeps-cv-gegevens-r\/\" target=\"_blank\" rel=\"noopener\">Gegevens groeperen en samenvatten in R<\/a><br \/> <a href=\"https:\/\/statorials.org\/nl\/samenvattende-tabel-in-r\/\" target=\"_blank\" rel=\"noopener\">Hoe u samenvattende tabellen maakt in R<\/a><br \/> <a href=\"https:\/\/statorials.org\/nl\/drop_na-in-r\/\" target=\"_blank\" rel=\"noopener\">Hoe rijen met ontbrekende waarden in R te verwijderen<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Gegevensopschoning verwijst naar het proces waarbij ruwe gegevens worden omgezet in gegevens die geschikt zijn voor analyse of modelbouw. In de meeste gevallen omvat het \u2018opschonen\u2019 van een dataset het omgaan met ontbrekende waarden en dubbele gegevens. Hier zijn de meest gebruikelijke methoden voor het &#8222;opschonen&#8220; van een dataset in R: Methode 1: Rijen met [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"class_list":["post-4179","post","type-post","status-publish","format-standard","hentry","category-gids"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials<\/title>\n<meta name=\"description\" content=\"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials\" \/>\n<meta property=\"og:description\" content=\"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-13T02:02:15+00:00\" \/>\n<meta name=\"author\" content=\"Dr.benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr.benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/\",\"url\":\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/\",\"name\":\"Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/nl\/#website\"},\"datePublished\":\"2023-07-13T02:02:15+00:00\",\"dateModified\":\"2023-07-13T02:02:15+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\"},\"description\":\"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Thuis\",\"item\":\"https:\/\/statorials.org\/nl\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Gegevensopschoning uitvoeren in r (met voorbeeld)\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/nl\/#website\",\"url\":\"https:\/\/statorials.org\/nl\/\",\"name\":\"Statorials\",\"description\":\"Uw gids voor statistische competentie\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/nl\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\",\"name\":\"Dr.benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/\",\"url\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr.benjamin anderson\"},\"description\":\"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder\",\"sameAs\":[\"http:\/\/statorials.org\/nl\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials","description":"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/","og_locale":"de_DE","og_type":"article","og_title":"Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials","og_description":"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.","og_url":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/","og_site_name":"Statorials","article_published_time":"2023-07-13T02:02:15+00:00","author":"Dr.benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr.benjamin anderson","Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/","url":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/","name":"Gegevensopschoning uitvoeren in R (met voorbeeld) - Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/nl\/#website"},"datePublished":"2023-07-13T02:02:15+00:00","dateModified":"2023-07-13T02:02:15+00:00","author":{"@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219"},"description":"In deze zelfstudie wordt aan de hand van een voorbeeld uitgelegd hoe u gegevensopschoning uitvoert op een gegevensset in R.","breadcrumb":{"@id":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/nl\/reinigingsgegevens-in-r\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Thuis","item":"https:\/\/statorials.org\/nl\/"},{"@type":"ListItem","position":2,"name":"Gegevensopschoning uitvoeren in r (met voorbeeld)"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/nl\/#website","url":"https:\/\/statorials.org\/nl\/","name":"Statorials","description":"Uw gids voor statistische competentie","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/nl\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219","name":"Dr.benjamin anderson","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/","url":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Dr.benjamin anderson"},"description":"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder","sameAs":["http:\/\/statorials.org\/nl"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/4179","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/comments?post=4179"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/4179\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/media?parent=4179"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/categories?post=4179"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/tags?post=4179"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}