{"id":1181,"date":"2023-07-27T09:25:17","date_gmt":"2023-07-27T09:25:17","guid":{"rendered":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/"},"modified":"2023-07-27T09:25:17","modified_gmt":"2023-07-27T09:25:17","slug":"beste-selectie-van-subsets","status":"publish","type":"post","link":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/","title":{"rendered":"Beste subsetselectie in machine learning (uitleg en voorbeelden)"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\">Bij machinaal leren willen we vaak modellen bouwen met behulp van een reeks voorspellende variabelen en een <a href=\"https:\/\/statorials.org\/nl\/variabelen-verklarende-reacties\/\" target=\"_blank\" rel=\"noopener noreferrer\">responsvariabele<\/a> . Ons doel is om een model te bouwen dat de voorspellende variabelen effectief kan gebruiken om de waarde van de responsvariabele te voorspellen.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Gegeven een reeks <em>p<\/em> totale voorspellende variabelen, zijn er veel modellen die we potentieel zouden kunnen bouwen.<\/span> <span style=\"color: #000000;\">E\u00e9n methode die we kunnen gebruiken om het <em>beste<\/em> model te kiezen, staat bekend als <strong>de beste subsetselectie<\/strong> en werkt als volgt:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Laat M <sub>0<\/sub> het nulmodel zijn, dat geen voorspellende variabele bevat.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>2.<\/strong> Voor k = 1, 2, \u2026 p:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Geschikt voor alle <sub>p<\/sub> C <sub>k<\/sub> -modellen die exact <em>k<\/em> voorspellers bevatten.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Kies <sub>de<\/sub> beste uit deze <sub>pCk-<\/sub> modellen en noem deze <sub>Mk<\/sub> . Definieer \u201cbeste\u201d als het model met de hoogste R <sup>2<\/sup> of, op equivalente wijze, de laagste RSS.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\"><strong>3.<\/strong> Selecteer \u00e9\u00e9n enkel beste model uit M <sub>0<\/sub> \u2026 M <sub>p<\/sub> met behulp van kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R <sup>2<\/sup> .<\/span><\/p>\n<p> <span style=\"color: #000000;\">Merk op dat er voor een reeks <em>p-<\/em> voorspellingsvariabelen twee <sup>p<\/sup> mogelijke modellen zijn.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Voorbeeld van het selecteren van de beste subset<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Stel dat we een dataset hebben met p = 3 voorspellende variabelen en een responsvariabele, y. Om de beste subsetselectie uit te voeren met deze dataset, zouden we de volgende 2 <sup>p<\/sup> = 2 <sup>3<\/sup> = 8 modellen passen:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Een model zonder voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspeller x <sub>1<\/sub><\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspeller x <sub>2<\/sub><\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspeller x <sub>3<\/sub><\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met x <sub>1<\/sub> , x <sub>2<\/sub> voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspellers x <sub>1<\/sub> , x <sub>3<\/sub><\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met x <sub>2<\/sub> , x <sub>3<\/sub> voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspellers x <sub>1<\/sub> , x <sub>2<\/sub> , x <sub>3<\/sub><\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Vervolgens zouden we uit elke set modellen met <em>k-<\/em> voorspellers het model met de hoogste <sup>R2<\/sup> kiezen. We kunnen bijvoorbeeld kiezen voor:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Een model zonder voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspeller x <sub>2<\/sub><\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met x <sub>1<\/sub> , x <sub>2<\/sub> voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\">Een model met voorspellers x <sub>1<\/sub> , x <sub>2<\/sub> , x <sub>3<\/sub><\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Vervolgens zouden we het beste model <a href=\"https:\/\/statorials.org\/nl\/k-voudige-kruisvalidatie\/\" target=\"_blank\" rel=\"noopener noreferrer\">kruisvalideren<\/a> en kiezen als het model dat resulteert in de laagste voorspellingsfout, Cp, BIC, AIC of aangepaste <sup>R2<\/sup> .<\/span><\/p>\n<p> <span style=\"color: #000000;\">We zouden bijvoorbeeld uiteindelijk het volgende model als het \u2018beste\u2019 model kunnen kiezen omdat het de laagste kruisgevalideerde voorspellingsfout opleverde:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Een model met x <sub>1<\/sub> , x <sub>2<\/sub> voorspellers<\/span><\/li>\n<\/ul>\n<h3> <span style=\"color: #000000;\"><strong>Criteria voor het kiezen van het \u201cbeste\u201d model<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">De laatste stap bij het selecteren van de beste subset is het kiezen van het model met de laagste voorspellingsfout, de laagste Cp, de laagste BIC, de laagste AIC of de laagste aangepaste <sup>R2<\/sup> . hoger.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Hier volgen de formules die worden gebruikt om elk van deze statistieken te berekenen:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Cp:<\/strong> (RSS+2d\u03c3\u0302) \/ n<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>AIC:<\/strong> (RSS+2d\u03c3\u0302 <sup>2<\/sup> ) \/ (n\u03c3\u0302 <sup>2<\/sup> )<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>BIC:<\/strong> (RSS+log(n)d\u03c3\u0302 <sup>2<\/sup> ) \/ n<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>R <sup>2<\/sup> aangepast:<\/strong> 1 \u2013 ( (RSS \/ (nd-1)) \/ (TSS \/ (n-1)) )<\/span><\/p>\n<p> <span style=\"color: #000000;\">Goud:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\"><strong>d:<\/strong> Het aantal voorspellers<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>n:<\/strong> Totaal aantal waarnemingen<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>\u03c3\u0302:<\/strong> schatting van de foutvariantie die is gekoppeld aan elke responsmaatstaf in een regressiemodel<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>RSS:<\/strong> Residuele som van kwadraten uit het regressiemodel<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>TSS:<\/strong> Totale som van kwadraten van het regressiemodel<\/span><\/li>\n<\/ul>\n<h3> <span style=\"color: #000000;\"><strong>Voor- en nadelen van de beste subsetselectie<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Het selecteren van de beste subset biedt de <strong>volgende voordelen:<\/strong><\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Het is een eenvoudige benadering om te begrijpen en te interpreteren.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Hierdoor kunnen we het best mogelijke model identificeren, omdat we alle combinaties van voorspellende variabelen in overweging nemen.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Deze methode heeft echter de <strong>volgende nadelen:<\/strong><\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Dit kan rekenintensief zijn. Voor een set <em>p-<\/em> voorspellingsvariabelen zijn er twee <sup>p<\/sup> mogelijke modellen. Met 10 voorspellende variabelen zijn er bijvoorbeeld 2 <sup>10<\/sup> = 1000 mogelijke modellen om te overwegen.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Omdat het een zeer groot aantal modellen in overweging neemt, kan het potentieel een model vinden dat goed presteert op basis van trainingsgegevens, maar niet op basis van toekomstige gegevens. Dit zou<\/span> <a href=\"https:\/\/statorials.org\/nl\/overfitting-van-machine-learning\/\" target=\"_blank\" rel=\"noopener noreferrer\">tot overfitting<\/a> kunnen leiden <span style=\"color: #000000;\">.<\/span><\/li>\n<\/ul>\n<h3> <strong><span style=\"color: #000000;\">Conclusie<\/span><\/strong><\/h3>\n<p> <span style=\"color: #000000;\">Hoewel het selecteren van de beste subset eenvoudig te implementeren en te begrijpen is, kan het onpraktisch zijn als u werkt met een dataset die een groot aantal voorspellers bevat, en kan dit mogelijk tot overfitting leiden.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Een alternatief voor deze methode staat bekend als <a href=\"https:\/\/statorials.org\/nl\/selectie-per-fase\/\" target=\"_blank\" rel=\"noopener noreferrer\">stapsgewijze selectie<\/a> , wat rekentechnisch effici\u00ebnter is.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Bij machinaal leren willen we vaak modellen bouwen met behulp van een reeks voorspellende variabelen en een responsvariabele . Ons doel is om een model te bouwen dat de voorspellende variabelen effectief kan gebruiken om de waarde van de responsvariabele te voorspellen. Gegeven een reeks p totale voorspellende variabelen, zijn er veel modellen die we [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"class_list":["post-1181","post","type-post","status-publish","format-standard","hentry","category-gids"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Beste subsetselectie in machine learning (uitleg en voorbeelden)<\/title>\n<meta name=\"description\" content=\"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Beste subsetselectie in machine learning (uitleg en voorbeelden)\" \/>\n<meta property=\"og:description\" content=\"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-27T09:25:17+00:00\" \/>\n<meta name=\"author\" content=\"Dr.benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Dr.benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/\",\"url\":\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/\",\"name\":\"Beste subsetselectie in machine learning (uitleg en voorbeelden)\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/nl\/#website\"},\"datePublished\":\"2023-07-27T09:25:17+00:00\",\"dateModified\":\"2023-07-27T09:25:17+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\"},\"description\":\"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Thuis\",\"item\":\"https:\/\/statorials.org\/nl\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Beste subsetselectie in machine learning (uitleg en voorbeelden)\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/nl\/#website\",\"url\":\"https:\/\/statorials.org\/nl\/\",\"name\":\"Statorials\",\"description\":\"Uw gids voor statistische competentie\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/nl\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219\",\"name\":\"Dr.benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/\",\"url\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Dr.benjamin anderson\"},\"description\":\"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder\",\"sameAs\":[\"http:\/\/statorials.org\/nl\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Beste subsetselectie in machine learning (uitleg en voorbeelden)","description":"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/","og_locale":"de_DE","og_type":"article","og_title":"Beste subsetselectie in machine learning (uitleg en voorbeelden)","og_description":"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.","og_url":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/","og_site_name":"Statorials","article_published_time":"2023-07-27T09:25:17+00:00","author":"Dr.benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"Dr.benjamin anderson","Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/","url":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/","name":"Beste subsetselectie in machine learning (uitleg en voorbeelden)","isPartOf":{"@id":"https:\/\/statorials.org\/nl\/#website"},"datePublished":"2023-07-27T09:25:17+00:00","dateModified":"2023-07-27T09:25:17+00:00","author":{"@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219"},"description":"Deze tutorial geeft uitleg over de beste subsetselectie op het gebied van machine learning.","breadcrumb":{"@id":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/nl\/beste-selectie-van-subsets\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Thuis","item":"https:\/\/statorials.org\/nl\/"},{"@type":"ListItem","position":2,"name":"Beste subsetselectie in machine learning (uitleg en voorbeelden)"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/nl\/#website","url":"https:\/\/statorials.org\/nl\/","name":"Statorials","description":"Uw gids voor statistische competentie","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/nl\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/d4b8842173cca1bb62cdec41860e4219","name":"Dr.benjamin anderson","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/statorials.org\/nl\/#\/schema\/person\/image\/","url":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"http:\/\/statorials.org\/nl\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Dr.benjamin anderson"},"description":"Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder","sameAs":["http:\/\/statorials.org\/nl"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1181","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/comments?post=1181"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/posts\/1181\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/media?parent=1181"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/categories?post=1181"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/nl\/wp-json\/wp\/v2\/tags?post=1181"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}