{"id":507,"date":"2023-07-29T16:29:54","date_gmt":"2023-07-29T16:29:54","guid":{"rendered":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/"},"modified":"2023-07-29T16:29:54","modified_gmt":"2023-07-29T16:29:54","slug":"come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi","status":"publish","type":"post","link":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/","title":{"rendered":"Come identificare i punti dati influenti utilizzando la distanza di cook"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\"><strong>La distanza di Cook<\/strong> , spesso indicata con D <sub>i<\/sub> , viene utilizzata nell&#8217;analisi <a href=\"https:\/\/statorials.org\/it\/regressione-lineare-multipla\/\" target=\"_blank\" rel=\"noopener noreferrer\">di regressione<\/a> per identificare punti dati influenti che potrebbero influenzare negativamente il modello di regressione.<\/span><\/p>\n<p> <span style=\"color: #000000;\">La formula per la distanza di Cook \u00e8:<\/span><\/p>\n<p style=\"text-align: center;\"> <span style=\"color: #000000;\"><strong>d <sub>i<\/sub><\/strong> = (r <sub>i<\/sub> <sup>2<\/sup> \/ p*MSE) * (h <sub>ii<\/sub> \/ (1-h <sub>ii<\/sub> ) <sup>2<\/sup> )<\/span><\/p>\n<p> <span style=\"color: #000000;\">Oro:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\"><strong>r<\/strong> <sub><strong>i<\/strong><\/sub> \u00e8 l&#8217;i- <sup>esimo<\/sup> residuo<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>p<\/strong> \u00e8 il numero di coefficienti nel modello di regressione<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>MSE<\/strong> \u00e8 l&#8217;errore quadratico medio<\/span><\/li>\n<li> <span style=\"color: #000000;\"><strong>h<\/strong> <sub>ii<\/sub> \u00e8 l&#8217; <sup>iesimo<\/sup> valore della leva finanziaria<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\">Anche se la formula sembra un po\u2019 complicata, la buona notizia \u00e8 che la maggior parte dei software statistici pu\u00f2 calcolarla facilmente per te.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Essenzialmente, la distanza di Cook fa una cosa: <strong>misura quanto cambiano tutti i valori adattati del modello quando viene rimosso l&#8217;i- <sup>esimo<\/sup> punto dati.<\/strong><\/span><\/p>\n<p> <span style=\"color: #000000;\">Un punto dati che ha un valore elevato per la distanza di Cook indica che influenza fortemente i valori adattati. Una regola generale \u00e8 che qualsiasi punto con una distanza Cook maggiore di 4\/n ( <em>dove n \u00e8 il numero totale di punti dati<\/em> ) \u00e8 considerato un valore anomalo.<\/span><\/p>\n<p> <span style=\"color: #000000;\">\u00c8 importante notare che la distanza di Cook viene spesso utilizzata per <em>identificare<\/em> punti dati influenti. Solo perch\u00e9 un punto dati \u00e8 influente non significa necessariamente che debba essere rimosso. Dovresti prima verificare se il punto dati \u00e8 stato semplicemente registrato in modo errato o se c&#8217;\u00e8 qualcosa di strano nel punto dati che potrebbe indicare una scoperta interessante.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Come calcolare la distanza di Cook in R<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">L&#8217;esempio seguente illustra come calcolare la distanza di Cook in R.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Innanzitutto, caricheremo due librerie di cui avremo bisogno per questo esempio:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong>library(ggplot2)\nlibrary(gridExtra)<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Successivamente, definiremo due frame di dati: uno con due valori anomali e uno senza valori anomali.<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#create data frame with no outliers<\/span>\nno_outliers &lt;- data.frame(x = c(1, 2, 2, 3, 4, 5, 7, 3, 2, 12, 11, 15, 14, 17, 22),\n                          y = c(22, 23, 24, 23, 19, 34, 35, 36, 36, 34, 32, 38, 41,\n                                42, 44))\n\n<span style=\"color: #008080;\">#create data frame with two outliers\n<\/span>outliers &lt;- data.frame(x = c(1, 2, 2, 3, 4, 5, 7, 3, 2, 12, 11, 15, 14, 17, 22),\n                       y = c( <span style=\"color: #800080;\">190<\/span> , 23, 24, 23, 19, 34, 35, 36, 36, 34, 32, 38, 41,\n                             42, <span style=\"color: #800080;\">180<\/span> ))<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Successivamente, creeremo un grafico a dispersione per visualizzare i due frame di dati fianco a fianco:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#create scatterplot for data frame with no outliers\n<\/span>no_outliers_plot &lt;- ggplot(data = no_outliers, aes(x = x, y = y)) +\n  geom_point() +\n  geom_smooth(method = lm) +\n  ylim(0, 200) +\n  ggtitle(\"No Outliers\")\n\n<span style=\"color: #008080;\">#create scatterplot for data frame with outliers\n<\/span>outliers_plot &lt;- ggplot(data = outliers, aes(x = x, y = y)) +\n  geom_point() +\n  geom_smooth(method = lm) +\n  ylim(0, 200) +\n  ggtitle(\"With Outliers\")\n\n<span style=\"color: #008080;\">#plot the two scatterplots side by side\n<\/span>gridExtra::grid.arrange(no_outliers_plot, outliers_plot, ncol=2)<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Possiamo vedere come i valori anomali influenzano negativamente l&#8217;adattamento della linea di regressione nel secondo grafico.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Per identificare i punti influenti nel secondo set di dati, possiamo calcolare <strong>la distanza di Cook<\/strong> per ciascuna osservazione nel set di dati e quindi tracciare queste distanze per vedere quali osservazioni sono al di sopra della soglia tradizionale di 4\/n:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#fit the linear regression model to the dataset with outliers<\/span>\nmodel &lt;- lm(y ~ x, data = outliers)\n\n<span style=\"color: #008080;\">#find Cook's distance for each observation in the dataset\n<\/span>cooksD &lt;- cooks.distance(model)\n\n<span style=\"color: #008080;\"># Plot Cook's Distance with a horizontal line at 4\/n to see which observations<\/span>\n<span style=\"color: #008080;\">#exceed this threshold<\/span>\nn &lt;- nrow(outliers)\nplot(cooksD, main = \"Cooks Distance for Influential Obs\")\nabline(h = 4\/n, lty = 2, col = \"steelblue\") <span style=\"color: #008080;\"># add cutoff line<\/span><\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Possiamo vedere chiaramente che la prima e l&#8217;ultima osservazione nel set di dati supera la soglia 4\/n. Pertanto, identificheremmo queste due osservazioni come punti dati influenti che influiscono negativamente sul modello di regressione.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Se vogliamo rimuovere tutte le osservazioni che superano la soglia 4\/n, possiamo farlo utilizzando il seguente codice:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#identify influential points<\/span>\ninfluential_obs &lt;- as.numeric(names(cooksD)[(cooksD &gt; (4\/n))])\n\n<span style=\"color: #008080;\">#define new data frame with influential points removed\n<\/span>outliers_removed &lt;- outliers[-influential_obs, ]<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Quindi possiamo confrontare due grafici a dispersione: uno mostra la linea di regressione con i punti di influenza presenti e l&#8217;altro mostra la linea di regressione con i punti di influenza rimossi:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#create scatterplot with outliers present<\/span>\noutliers_present &lt;- ggplot(data = outliers, aes(x = x, y = y)) +\n  geom_point() +\n  geom_smooth(method = lm) +\n  ylim(0, 200) +\n  ggtitle(\"Outliers Present\")\n\n<span style=\"color: #008080;\">#create scatterplot with outliers removed<\/span>\noutliers_removed &lt;- ggplot(data = outliers_removed, aes(x = x, y = y)) +\n  geom_point() +\n  geom_smooth(method = lm) +\n  ylim(0, 200) +\n  ggtitle(\"Outliers Removed\")\n\n<span style=\"color: #008080;\">#plot both scatterplots side by side\n<\/span>gridExtra::grid.arrange(outliers_present, outliers_removed, ncol = 2)<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Possiamo vedere chiaramente quanto meglio la linea di regressione si adatta ai dati una volta rimossi i due punti dati influenti.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Note tecniche<\/strong><\/span><\/h3>\n<ul>\n<li> <span style=\"color: #000000;\">La maggior parte dei software statistici ha la capacit\u00e0 di calcolare facilmente la distanza di Cook per ciascuna osservazione in un set di dati.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Tieni presente che la distanza di Cook \u00e8 semplicemente un modo per <em>identificare<\/em> i punti di influenza.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Esistono molti modi per <em>gestire<\/em> i punti influenti, tra cui: rimuovere questi punti, sostituirli con un valore come la media o la mediana o semplicemente mantenere i punti nel modello ma prenderne attentamente nota quando si riporta la regressione dei risultati.<\/span><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>La distanza di Cook , spesso indicata con D i , viene utilizzata nell&#8217;analisi di regressione per identificare punti dati influenti che potrebbero influenzare negativamente il modello di regressione. La formula per la distanza di Cook \u00e8: d i = (r i 2 \/ p*MSE) * (h ii \/ (1-h ii ) 2 ) Oro: [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials<\/title>\n<meta name=\"description\" content=\"Questo tutorial spiega come identificare i punti dati influenti nell&#039;analisi di regressione utilizzando la distanza di Cook.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials\" \/>\n<meta property=\"og:description\" content=\"Questo tutorial spiega come identificare i punti dati influenti nell&#039;analisi di regressione utilizzando la distanza di Cook.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-29T16:29:54+00:00\" \/>\n<meta name=\"author\" content=\"Benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/\",\"url\":\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/\",\"name\":\"Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/it\/#website\"},\"datePublished\":\"2023-07-29T16:29:54+00:00\",\"dateModified\":\"2023-07-29T16:29:54+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/it\/#\/schema\/person\/0896f191fb9fb019f2cd8623112cb3ae\"},\"description\":\"Questo tutorial spiega come identificare i punti dati influenti nell&#39;analisi di regressione utilizzando la distanza di Cook.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Casa\",\"item\":\"https:\/\/statorials.org\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Come identificare i punti dati influenti utilizzando la distanza di cook\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/it\/#website\",\"url\":\"https:\/\/statorials.org\/it\/\",\"name\":\"Statorials\",\"description\":\"La tua guida all&#039;alfabetizzazione statistica!\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/it\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/it\/#\/schema\/person\/0896f191fb9fb019f2cd8623112cb3ae\",\"name\":\"Benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/statorials.org\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/statorials.org\/it\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"https:\/\/statorials.org\/it\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Benjamin anderson\"},\"description\":\"Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di pi\u00f9\",\"sameAs\":[\"https:\/\/statorials.org\/it\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials","description":"Questo tutorial spiega come identificare i punti dati influenti nell&#39;analisi di regressione utilizzando la distanza di Cook.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/","og_locale":"it_IT","og_type":"article","og_title":"Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials","og_description":"Questo tutorial spiega come identificare i punti dati influenti nell&#39;analisi di regressione utilizzando la distanza di Cook.","og_url":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/","og_site_name":"Statorials","article_published_time":"2023-07-29T16:29:54+00:00","author":"Benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Written by":"Benjamin anderson","Est. reading time":"4 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/","url":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/","name":"Come identificare i punti dati influenti utilizzando la distanza di Cook - Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/it\/#website"},"datePublished":"2023-07-29T16:29:54+00:00","dateModified":"2023-07-29T16:29:54+00:00","author":{"@id":"https:\/\/statorials.org\/it\/#\/schema\/person\/0896f191fb9fb019f2cd8623112cb3ae"},"description":"Questo tutorial spiega come identificare i punti dati influenti nell&#39;analisi di regressione utilizzando la distanza di Cook.","breadcrumb":{"@id":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/it\/come-identificare-i-punti-dati-influenti-utilizzando-la-distanza-dei-cuochi\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Casa","item":"https:\/\/statorials.org\/it\/"},{"@type":"ListItem","position":2,"name":"Come identificare i punti dati influenti utilizzando la distanza di cook"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/it\/#website","url":"https:\/\/statorials.org\/it\/","name":"Statorials","description":"La tua guida all&#039;alfabetizzazione statistica!","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/it\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/statorials.org\/it\/#\/schema\/person\/0896f191fb9fb019f2cd8623112cb3ae","name":"Benjamin anderson","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/statorials.org\/it\/#\/schema\/person\/image\/","url":"https:\/\/statorials.org\/it\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"https:\/\/statorials.org\/it\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Benjamin anderson"},"description":"Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di pi\u00f9","sameAs":["https:\/\/statorials.org\/it"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/posts\/507"}],"collection":[{"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/comments?post=507"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/posts\/507\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/media?parent=507"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/categories?post=507"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/it\/wp-json\/wp\/v2\/tags?post=507"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}