{"id":1224,"date":"2023-07-27T05:47:13","date_gmt":"2023-07-27T05:47:13","guid":{"rendered":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/"},"modified":"2023-07-27T05:47:13","modified_gmt":"2023-07-27T05:47:13","slug":"willekeurige-oefeningen","status":"publish","type":"post","link":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/","title":{"rendered":"Een eenvoudige introductie tot willekeurige bossen"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\">Wanneer de relatie tussen een reeks voorspellende variabelen en een <a href=\"https:\/\/statorials.org\/nl\/variabelen-verklarende-reacties\/\" target=\"_blank\" rel=\"noopener noreferrer\">responsvariabele<\/a> erg complex is, gebruiken we vaak niet-lineaire methoden om de relatie daartussen te modelleren.<\/span><\/p>\n<p> <span style=\"color: #000000;\">E\u00e9n van die methoden zijn <a href=\"https:\/\/statorials.org\/nl\/classificatie-en-regressiebomen\/\" target=\"_blank\" rel=\"noopener noreferrer\">classificatie- en regressiebomen<\/a> (vaak afgekort CART), die een reeks voorspellende variabelen gebruiken om <em>beslissingsbomen<\/em> te cre\u00ebren die de waarde van een responsvariabele voorspellen.<\/span> <\/p>\n<figure id=\"attachment_12094\" aria-describedby=\"caption-attachment-12094\" style=\"width: 453px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-12094\" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png\" alt=\"\" width=\"453\" height=\"347\" srcset=\"\" sizes=\"auto, \"><figcaption id=\"caption-attachment-12094\" class=\"wp-caption-text\"> <strong><span style=\"color: #000000;\">Voorbeeld van een regressieboom die jaren ervaring en gemiddelde homeruns gebruikt om het salaris van een professionele honkbalspeler te voorspellen.<\/span><\/strong><\/figcaption><\/figure>\n<p> <span style=\"color: #000000;\">Het voordeel van beslisbomen is dat ze gemakkelijk te interpreteren en visualiseren zijn. Het probleem is dat ze vaak last hebben van <a href=\"https:\/\/statorials.org\/nl\/bias-variantie-compromis\/\" target=\"_blank\" rel=\"noopener noreferrer\">hoge variantie<\/a> . Dat wil zeggen: als we een dataset in twee helften splitsen en op beide helften een beslisboom toepassen, kunnen de resultaten heel verschillend zijn.<\/span><\/p>\n<p> <span style=\"color: #000000;\">E\u00e9n manier om de variantie van beslissingsbomen te verkleinen is door een methode te gebruiken die bekend staat als <a href=\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\" target=\"_blank\" rel=\"noopener noreferrer\">bagging<\/a> en die als volgt werkt:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Neem <em>b-<\/em> bootstrapped samples uit de originele dataset.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>2.<\/strong> Maak een beslissingsboom voor elk bootstrap-voorbeeld.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>3.<\/strong> Gemiddelde van de voorspellingen van elke boom om een definitief model te verkrijgen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Het voordeel van deze aanpak is dat een geclusterd model over het algemeen een verbetering van het testfoutenpercentage oplevert in vergelijking met een enkele beslissingsboom.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Het nadeel is dat voorspellingen uit het verzamelen van bomen in zakken sterk gecorreleerd kunnen zijn als er een zeer sterke voorspeller in de dataset zit.<\/span> <span style=\"color: #000000;\">In dit geval zullen de meeste of alle bomen in zakken deze voorspeller gebruiken voor de eerste splitsing, wat resulteert in bomen die op elkaar lijken en sterk gecorreleerde voorspellingen hebben.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Dus wanneer we de voorspellingen van elke boom middelen om tot een definitief model te komen, is het mogelijk dat dit model de variantie niet daadwerkelijk verkleint vergeleken met een enkele beslissingsboom.<\/span><\/p>\n<p> <span style=\"color: #000000;\">E\u00e9n manier om dit probleem te omzeilen is het gebruik van een methode die bekend staat als <strong>willekeurige bossen<\/strong> .<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Wat zijn willekeurige bossen?<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Net als bij het in zakken doen, nemen willekeurige forests ook bootstrapped <em>steekproeven<\/em> uit een originele dataset.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Bij het construeren van een beslissingsboom voor elke bootstrap-steekproef wordt echter telkens wanneer een splitsing in een boom wordt overwogen, slechts een willekeurige steekproef van <em>m<\/em> voorspellers beschouwd als een kandidaat voor splitsing over de volledige set van <em>p<\/em> voorspellers.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Hier is dus de volledige methode die willekeurige forests gebruiken om een model te maken:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Neem <em>b-<\/em> bootstrapped samples uit de originele dataset.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>2.<\/strong> Maak een beslissingsboom voor elk bootstrap-voorbeeld.<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Bij het construeren van de boom wordt elke keer dat een splitsing wordt overwogen, slechts een willekeurige steekproef van <em>m-<\/em> voorspellers beschouwd als kandidaten voor splitsing uit de volledige set van <em>p-<\/em> voorspellers.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\"><strong>3.<\/strong> Gemiddelde van de voorspellingen van elke boom om een definitief model te verkrijgen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Met behulp van deze methode wordt de verzameling bomen in een willekeurig bos <strong>versierd<\/strong> met betrekking tot bomen die zijn geproduceerd door het in zakken doen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Dus als we de gemiddelde voorspellingen van elke boom nemen om tot een definitief model te komen, heeft dit doorgaans minder variabiliteit en resulteert het in een lager testfoutenpercentage dan een model met zakken.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Wanneer we willekeurige forests gebruiken, beschouwen we de <em>m<\/em> = \u221a <em>p<\/em> -voorspellers over het algemeen als gesplitste kandidaten telkens wanneer we een beslissingsboom splitsen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Als we bijvoorbeeld in totaal <em>p<\/em> = 16 voorspellers in een dataset hebben, beschouwen we over het algemeen alleen <em>m<\/em> = \u221a16 = 4 voorspellers als potenti\u00eble kandidaten voor elke splitsing.<\/span><\/p>\n<blockquote>\n<p> <span style=\"color: #000000;\"><strong>Technische notitie:<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\">Interessant is dat als we <em>m<\/em> = <em>p<\/em> kiezen (dwz we beschouwen alle voorspellers als kandidaten bij elke splitsing), dit simpelweg gelijk staat aan het gebruik van &#8218;bagging&#8216;.<\/span><\/p>\n<\/blockquote>\n<h3> <span style=\"color: #000000;\"><strong>Schatting van out-of-bag-fouten<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Net als bij het in zakken doen, kunnen we de testfout van een willekeurig bosmodel berekenen met behulp van <strong>een out-of-bag-schatting<\/strong> .<\/span><\/p>\n<p> <span style=\"color: #000000;\">Er kan worden aangetoond dat elk bootstrap-monster ongeveer 2\/3 van de waarnemingen uit de oorspronkelijke dataset bevat. Het resterende derde deel van de waarnemingen die niet in de boom passen, worden <strong>out-of-bag (OOB) waarnemingen<\/strong> genoemd.<\/span><\/p>\n<p> <span style=\"color: #000000;\">We kunnen de waarde van de i-de waarneming in de oorspronkelijke dataset voorspellen door de gemiddelde voorspelling te nemen van elk van de bomen waarin die waarneming OOB was.<\/span><\/p>\n<p> <span style=\"color: #000000;\">We kunnen deze aanpak gebruiken om een voorspelling te doen voor alle <em>n<\/em> waarnemingen in de originele dataset en zo een foutenpercentage te berekenen, wat een geldige schatting is van de testfout.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Het voordeel van het gebruik van deze aanpak om de testfout te schatten is dat deze veel sneller is dan <a href=\"https:\/\/statorials.org\/nl\/k-voudige-kruisvalidatie\/\" target=\"_blank\" rel=\"noopener noreferrer\">k-voudige kruisvalidatie<\/a> , vooral als de dataset groot is.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong><span style=\"color: #000000;\">De voor- en nadelen van willekeurige bossen<\/span><\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Willekeurige bossen bieden de volgende <strong>voordelen<\/strong> :<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">In de meeste gevallen zullen willekeurige forests een verbetering van de nauwkeurigheid bieden ten opzichte van modellen in zakken en vooral ten opzichte van afzonderlijke beslissingsbomen.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Willekeurige bossen zijn robuust tegen uitschieters.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Er is geen voorbewerking vereist om willekeurige forests te gebruiken.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Willekeurige bossen hebben echter de <strong>volgende potenti\u00eble nadelen:<\/strong><\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Ze zijn moeilijk te interpreteren.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Ze kunnen rekenintensief (dat wil zeggen langzaam) zijn om grote datasets te kunnen gebruiken.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">In de praktijk gebruiken datawetenschappers doorgaans willekeurige forests om de voorspellende nauwkeurigheid te maximaliseren, dus het feit dat ze niet gemakkelijk interpreteerbaar zijn, is meestal geen probleem.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wanneer de relatie tussen een reeks voorspellende variabelen en een responsvariabele erg complex is, gebruiken we vaak niet-lineaire methoden om de relatie daartussen te modelleren. E\u00e9n van die methoden zijn classificatie- en regressiebomen (vaak afgekort CART), die een reeks voorspellende variabelen gebruiken om beslissingsbomen te cre\u00ebren die de waarde van een responsvariabele voorspellen. Voorbeeld van [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"class_list":["post-1224","post","type-post","status-publish","format-standard","hentry","category-gids"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Een eenvoudige introductie tot willekeurige bossen<\/title>\n<meta name=\"description\" content=\"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Een eenvoudige introductie tot willekeurige bossen\" \/>\n<meta property=\"og:description\" content=\"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-27T05:47:13+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png\" \/>\n<meta name=\"author\" content=\"Dr.benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr.benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"4\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\",\"url\":\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\",\"name\":\"Een eenvoudige introductie tot willekeurige bossen\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/nl\/#website\"},\"datePublished\":\"2023-07-27T05:47:13+00:00\",\"dateModified\":\"2023-07-27T05:47:13+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\"},\"description\":\"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Thuis\",\"item\":\"https:\/\/statorials.org\/nl\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Een eenvoudige introductie tot willekeurige bossen\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/nl\/#website\",\"url\":\"https:\/\/statorials.org\/nl\/\",\"name\":\"Statorials\",\"description\":\"Uw gids voor statistische competentie\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/nl\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\",\"name\":\"Dr.benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/\",\"url\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr.benjamin anderson\"},\"description\":\"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder\",\"sameAs\":[\"http:\/\/statorials.org\/nl\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Een eenvoudige introductie tot willekeurige bossen","description":"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/","og_locale":"de_DE","og_type":"article","og_title":"Een eenvoudige introductie tot willekeurige bossen","og_description":"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.","og_url":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/","og_site_name":"Statorials","article_published_time":"2023-07-27T05:47:13+00:00","og_image":[{"url":"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png"}],"author":"Dr.benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr.benjamin anderson","Gesch\u00e4tzte Lesezeit":"4\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/","url":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/","name":"Een eenvoudige introductie tot willekeurige bossen","isPartOf":{"@id":"https:\/\/statorials.org\/nl\/#website"},"datePublished":"2023-07-27T05:47:13+00:00","dateModified":"2023-07-27T05:47:13+00:00","author":{"@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219"},"description":"Deze tutorial biedt een eenvoudige introductie tot willekeurige forests, een populaire methode in machine learning.","breadcrumb":{"@id":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Thuis","item":"https:\/\/statorials.org\/nl\/"},{"@type":"ListItem","position":2,"name":"Een eenvoudige introductie tot willekeurige bossen"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/nl\/#website","url":"https:\/\/statorials.org\/nl\/","name":"Statorials","description":"Uw gids voor statistische competentie","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/nl\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219","name":"Dr.benjamin anderson","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/","url":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Dr.benjamin anderson"},"description":"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder","sameAs":["http:\/\/statorials.org\/nl"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1224","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/comments?post=1224"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1224\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/media?parent=1224"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/categories?post=1224"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/tags?post=1224"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}