{"id":1221,"date":"2023-07-27T06:00:40","date_gmt":"2023-07-27T06:00:40","guid":{"rendered":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/"},"modified":"2023-07-27T06:00:40","modified_gmt":"2023-07-27T06:00:40","slug":"machine-learning-in-zakken-doen","status":"publish","type":"post","link":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/","title":{"rendered":"Een inleiding tot het inpakken in machine learning"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\">Wanneer de relatie tussen een reeks voorspellende variabelen en een <a href=\"https:\/\/statorials.org\/nl\/variabelen-verklarende-reacties\/\" target=\"_blank\" rel=\"noopener noreferrer\">responsvariabele<\/a> lineair is, kunnen we methoden zoals <a href=\"https:\/\/statorials.org\/nl\/meerdere-lineaire-regressie\/\" target=\"_blank\" rel=\"noopener noreferrer\">meervoudige lineaire regressie<\/a> gebruiken om de relatie tussen de variabelen te modelleren.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Wanneer de relatie echter complexer is, moeten we vaak onze toevlucht nemen tot niet-lineaire methoden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">E\u00e9n van die methoden zijn <a href=\"https:\/\/statorials.org\/nl\/classificatie-en-regressiebomen\/\" target=\"_blank\" rel=\"noopener noreferrer\">classificatie- en regressiebomen<\/a> (vaak afgekort CART), die een reeks voorspellende variabelen gebruiken om <em>beslissingsbomen<\/em> te cre\u00ebren die de waarde van een responsvariabele voorspellen.<\/span> <\/p>\n<figure id=\"attachment_12094\" aria-describedby=\"caption-attachment-12094\" style=\"width: 453px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-12094\" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png\" alt=\"\" width=\"453\" height=\"347\" srcset=\"\" sizes=\"auto, \"><figcaption id=\"caption-attachment-12094\" class=\"wp-caption-text\"> <strong><span style=\"color: #000000;\">Voorbeeld van een regressieboom die jaren ervaring en gemiddelde homeruns gebruikt om het salaris van een professionele honkbalspeler te voorspellen.<\/span><\/strong><\/figcaption><\/figure>\n<p> <span style=\"color: #000000;\">Het nadeel van CART-modellen is echter dat ze vaak last hebben van <a href=\"https:\/\/statorials.org\/nl\/bias-variantie-compromis\/\" target=\"_blank\" rel=\"noopener noreferrer\">een hoge variantie<\/a> . Dat wil zeggen: als we een dataset in twee helften splitsen en op beide helften een beslisboom toepassen, kunnen de resultaten heel verschillend zijn.<\/span><\/p>\n<p> <span style=\"color: #000000;\">E\u00e9n methode die we kunnen gebruiken om de variantie van CART-modellen te verminderen, staat bekend als <strong>bagging<\/strong> , ook wel <em>bootstrap-aggregatie<\/em> genoemd.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Wat is inzakken?<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Wanneer we \u00e9\u00e9n beslissingsboom maken, gebruiken we slechts \u00e9\u00e9n set trainingsgegevens om het model te bouwen.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Bij het verpakken<\/strong> wordt echter de volgende methode gebruikt:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Neem <em>b-<\/em> bootstrapped samples uit de originele dataset.<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Bedenk dat een <em>bootstrapped steekproef<\/em> een steekproef is uit de oorspronkelijke dataset waarin waarnemingen worden gedaan met vervanging.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\"><strong>2.<\/strong> Maak een beslissingsboom voor elk bootstrap-voorbeeld.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>3.<\/strong> Gemiddelde van de voorspellingen van elke boom om een definitief model te verkrijgen.<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Voor regressiebomen nemen we het gemiddelde van de voorspelling van de <em>B-<\/em> bomen.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Voor classificatiebomen nemen we de meest gebruikelijke voorspelling van <em>B<\/em> -bomen.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Bagging kan worden gebruikt met elk machine learning-algoritme, maar is vooral nuttig voor beslissingsbomen omdat deze inherent een hoge variantie hebben en bagging de variantie aanzienlijk kan verminderen, wat resulteert in minder testfouten.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Om beslisbomen op zakken toe te passen, <em>kweken<\/em> we individuele bomen op diepte zonder ze te snoeien. Dit resulteert in individuele bomen met een hoge variantie, maar een lage bias. Als we vervolgens de gemiddelde voorspellingen van deze bomen nemen, kunnen we de variantie verkleinen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">In de praktijk worden optimale prestaties doorgaans bereikt met 50 tot 500 bomen, maar het is mogelijk om duizenden bomen te passen om een definitief model te produceren.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Houd er rekening mee dat het plaatsen van meer bomen meer rekenkracht vereist, wat al dan niet een probleem kan zijn, afhankelijk van de grootte van de dataset.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Schatting van out-of-bag-fouten<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Het blijkt dat we de testfout van een in zakken verpakt model kunnen berekenen zonder te vertrouwen op <a href=\"https:\/\/statorials.org\/nl\/k-voudige-kruisvalidatie\/\" target=\"_blank\" rel=\"noopener noreferrer\">k-voudige kruisvalidatie<\/a> .<\/span><\/p>\n<p> <span style=\"color: #000000;\">De reden is dat kan worden aangetoond dat elk bootstrap-monster ongeveer 2\/3 van de waarnemingen uit de oorspronkelijke dataset bevat. Het resterende derde deel van de waarnemingen die niet in de zakboom passen, worden <strong>out-of-bag (OOB) waarnemingen<\/strong> genoemd.<\/span><\/p>\n<p> <span style=\"color: #000000;\">We kunnen de waarde van de i-de waarneming in de oorspronkelijke dataset voorspellen door de gemiddelde voorspelling te nemen van elk van de bomen waarin die waarneming OOB was.<\/span><\/p>\n<p> <span style=\"color: #000000;\">We kunnen deze aanpak gebruiken om een voorspelling te doen voor alle <em>n<\/em> waarnemingen in de originele dataset en zo een foutenpercentage te berekenen, wat een geldige schatting is van de testfout.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Het voordeel van het gebruik van deze aanpak om de testfout te schatten is dat deze veel sneller is dan k-voudige kruisvalidatie, vooral als de dataset groot is.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Het belang van voorspellers begrijpen<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Bedenk dat een van de voordelen van beslisbomen is dat ze gemakkelijk te interpreteren en te visualiseren zijn.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Wanneer we in plaats daarvan &#8218;bagging&#8216; gebruiken, zijn we niet langer in staat een individuele boom te interpreteren of te visualiseren, omdat het uiteindelijke &#8218;bagged&#8216;-model het resultaat is van het middelen van veel verschillende bomen. We winnen aan voorspellingsnauwkeurigheid ten koste van de interpreteerbaarheid.<\/span><\/p>\n<p> <span style=\"color: #000000;\">We kunnen echter nog steeds het belang van elke voorspellende variabele begrijpen door de totale reductie in RSS (resterende som van kwadraten) als gevolg van de verdeling over een bepaalde voorspellende variabele te berekenen, gemiddeld over alle <em>B-<\/em> bomen. Hoe groter de waarde, hoe belangrijker de voorspeller.<\/span> <\/p>\n<figure id=\"attachment_12115\" aria-describedby=\"caption-attachment-12115\" style=\"width: 411px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"wp-image-12115\" src=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/sac1.png\" alt=\"Grafiek met variabele belangrijkheid voor het oppakmodel\" width=\"411\" height=\"380\" srcset=\"\" sizes=\"auto, \"><figcaption id=\"caption-attachment-12115\" class=\"wp-caption-text\"> <span style=\"color: #000000;\"><strong>Voorbeeld van een diagram met variabele belangrijkheid.<\/strong><\/span><\/figcaption><\/figure>\n<p> <span style=\"color: #000000;\">Op dezelfde manier kunnen we voor classificatiemodellen de totale reductie van de Gini-index berekenen als gevolg van de verdeling over een bepaalde voorspeller, gemiddeld over alle <em>B<\/em> -bomen. Hoe groter de waarde, hoe belangrijker de voorspeller.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Dus hoewel we een uiteindelijk algemeen model niet precies kunnen interpreteren, kunnen we toch een idee krijgen van hoe belangrijk elke voorspellende variabele is bij het voorspellen van de respons.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Ga verder dan inpakken<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Het voordeel van bagging is dat het over het algemeen een verbetering van het testfoutenpercentage oplevert in vergelijking met een enkele beslissingsboom.<\/span><\/p>\n<p data-slot-rendered-dynamic=\"true\"> <span style=\"color: #000000;\">Het nadeel is dat voorspellingen uit het verzamelen van bomen in zakken sterk gecorreleerd kunnen zijn als er een zeer sterke voorspeller in de dataset zit.<\/span><\/p>\n<p data-slot-rendered-dynamic=\"true\"> <span style=\"color: #000000;\">In dit geval zullen de meeste of alle bomen in zakken deze voorspeller gebruiken voor de eerste splitsing, wat resulteert in bomen die op elkaar lijken en sterk gecorreleerde voorspellingen hebben.<\/span><\/p>\n<p data-slot-rendered-dynamic=\"true\"> <span style=\"color: #000000;\">E\u00e9n manier om dit probleem te omzeilen is het gebruik van willekeurige bossen, die een vergelijkbare methode gebruiken als het in zakken doen van zakken, maar die wel versierde bomen kunnen produceren, wat vaak leidt tot lagere testfoutenpercentages.<\/span><\/p>\n<p data-slot-rendered-dynamic=\"true\"> <span style=\"color: #000000;\">Je kunt <a href=\"https:\/\/statorials.org\/nl\/willekeurige-oefeningen\/\" target=\"_blank\" rel=\"noopener noreferrer\">hier<\/a> een eenvoudige inleiding tot willekeurige bossen lezen.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Aanvullende bronnen<\/strong><\/span><\/h3>\n<p> <a href=\"https:\/\/statorials.org\/nl\/classificatie-en-regressiebomen\/\" target=\"_blank\" rel=\"noopener noreferrer\">Een inleiding tot classificatie- en regressiebomen<\/a><br \/> <a href=\"https:\/\/statorials.org\/nl\/inpakken-in-r\/\" target=\"_blank\" rel=\"noopener noreferrer\">Opzakken uitvoeren in R (stap voor stap)<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wanneer de relatie tussen een reeks voorspellende variabelen en een responsvariabele lineair is, kunnen we methoden zoals meervoudige lineaire regressie gebruiken om de relatie tussen de variabelen te modelleren. Wanneer de relatie echter complexer is, moeten we vaak onze toevlucht nemen tot niet-lineaire methoden. E\u00e9n van die methoden zijn classificatie- en regressiebomen (vaak afgekort CART), [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"class_list":["post-1221","post","type-post","status-publish","format-standard","hentry","category-gids"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Een inleiding tot het in zakken doen van machinaal leren - Statorials<\/title>\n<meta name=\"description\" content=\"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Een inleiding tot het in zakken doen van machinaal leren - Statorials\" \/>\n<meta property=\"og:description\" content=\"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-27T06:00:40+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png\" \/>\n<meta name=\"author\" content=\"Dr.benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr.benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"4\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\",\"url\":\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\",\"name\":\"Een inleiding tot het in zakken doen van machinaal leren - Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/nl\/#website\"},\"datePublished\":\"2023-07-27T06:00:40+00:00\",\"dateModified\":\"2023-07-27T06:00:40+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\"},\"description\":\"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Thuis\",\"item\":\"https:\/\/statorials.org\/nl\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Een inleiding tot het inpakken in machine learning\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/nl\/#website\",\"url\":\"https:\/\/statorials.org\/nl\/\",\"name\":\"Statorials\",\"description\":\"Uw gids voor statistische competentie\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/nl\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\",\"name\":\"Dr.benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/\",\"url\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr.benjamin anderson\"},\"description\":\"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder\",\"sameAs\":[\"http:\/\/statorials.org\/nl\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Een inleiding tot het in zakken doen van machinaal leren - Statorials","description":"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/","og_locale":"de_DE","og_type":"article","og_title":"Een inleiding tot het in zakken doen van machinaal leren - Statorials","og_description":"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.","og_url":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/","og_site_name":"Statorials","article_published_time":"2023-07-27T06:00:40+00:00","og_image":[{"url":"https:\/\/statorials.org\/wp-content\/uploads\/2023\/08\/arbre3.png"}],"author":"Dr.benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr.benjamin anderson","Gesch\u00e4tzte Lesezeit":"4\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/","url":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/","name":"Een inleiding tot het in zakken doen van machinaal leren - Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/nl\/#website"},"datePublished":"2023-07-27T06:00:40+00:00","dateModified":"2023-07-27T06:00:40+00:00","author":{"@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219"},"description":"Deze tutorial biedt een korte introductie tot het in zakken doen, een veelgebruikte methode bij machinaal leren.","breadcrumb":{"@id":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/nl\/machine-learning-in-zakken-doen\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Thuis","item":"https:\/\/statorials.org\/nl\/"},{"@type":"ListItem","position":2,"name":"Een inleiding tot het inpakken in machine learning"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/nl\/#website","url":"https:\/\/statorials.org\/nl\/","name":"Statorials","description":"Uw gids voor statistische competentie","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/nl\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219","name":"Dr.benjamin anderson","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/","url":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Dr.benjamin anderson"},"description":"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder","sameAs":["http:\/\/statorials.org\/nl"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1221","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/comments?post=1221"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1221\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/media?parent=1221"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/categories?post=1221"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/tags?post=1221"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}