{"id":521,"date":"2023-07-29T15:29:02","date_gmt":"2023-07-29T15:29:02","guid":{"rendered":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/"},"modified":"2023-07-29T15:29:02","modified_gmt":"2023-07-29T15:29:02","slug":"cara-melakukan-validasi-silang-untuk-kinerja-model-di-r","status":"publish","type":"post","link":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/","title":{"rendered":"Cara melakukan validasi silang untuk kinerja model di r"},"content":{"rendered":"<p><\/p>\n<hr>\n<p><span style=\"color: #000000;\">Dalam statistik, kita sering membuat model karena dua alasan:<\/span><\/p>\n<ul>\n<li> <span style=\"color: #000000;\">Memahami hubungan antara satu atau lebih variabel prediktor dan<\/span> <span style=\"color: #000000;\">variabel respon.<\/span><\/li>\n<li> <span style=\"color: #000000;\">Gunakan model untuk memprediksi pengamatan di masa depan.<\/span><\/li>\n<\/ul>\n<p> <span style=\"color: #000000;\"><strong>Validasi silang<\/strong> berguna untuk memperkirakan seberapa baik suatu model mampu memprediksi observasi di masa depan.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Misalnya, kita dapat membangun model regresi linier berganda<\/span> <span style=\"color: #000000;\">yang menggunakan <em>usia<\/em> dan <em>pendapatan<\/em> sebagai variabel prediktor dan <em>status default sebagai<\/em> variabel respon.<\/span> <span style=\"color: #000000;\">Dalam hal ini, kita mungkin ingin menyesuaikan model tersebut dengan kumpulan data dan kemudian menggunakan model tersebut untuk memprediksi, berdasarkan<\/span> <span style=\"color: #000000;\">pendapatan dan usia pemohon baru, kemungkinan bahwa mereka akan gagal membayar pinjamannya.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Untuk menentukan apakah model memiliki kemampuan prediksi yang kuat, kita perlu menggunakannya untuk membuat prediksi pada<\/span> <span style=\"color: #000000;\">data yang belum pernah dilihat sebelumnya. Ini akan memungkinkan kita memperkirakan <strong>kesalahan prediksi<\/strong> model.<\/span><\/p>\n<h2> <strong><span style=\"color: #000000;\">Menggunakan Validasi Silang untuk Memperkirakan Kesalahan Prediksi<\/span><\/strong><\/h2>\n<p> <span style=\"color: #000000;\"><strong>Validasi silang<\/strong> mengacu pada berbagai cara untuk memperkirakan kesalahan prediksi.<\/span> <span style=\"color: #000000;\">Pendekatan umum untuk<\/span> <span style=\"color: #000000;\">validasi silang adalah:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Sisihkan sejumlah observasi dalam kumpulan data \u2013 biasanya 15-25% dari seluruh observasi.<\/span><br \/> <span style=\"color: #000000;\"><strong>2.<\/strong> Sesuaikan (atau \u201clatih\u201d) model berdasarkan observasi yang kami simpan dalam kumpulan data.<\/span><br \/> <span style=\"color: #000000;\"><strong>3.<\/strong> Uji seberapa baik model dapat membuat prediksi tentang observasi yang tidak kita gunakan untuk melatih model.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Mengukur kualitas suatu model<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">Saat kita menggunakan model yang sesuai untuk membuat prediksi tentang observasi baru, kita dapat menggunakan beberapa metrik berbeda untuk mengukur kualitas model, termasuk:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Multiple R-squared:<\/strong> Ini mengukur kekuatan hubungan linier antara variabel prediktor dan<\/span> <span style=\"color: #000000;\">variabel respon. Kelipatan R-kuadrat dari 1 menunjukkan hubungan linier sempurna, sedangkan<\/span> <span style=\"color: #000000;\">kelipatan R-kuadrat dari 0 menunjukkan tidak ada hubungan linier. Semakin tinggi kelipatan R-squared maka semakin besar kemungkinan variabel prediktor memprediksi variabel respon.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>Root mean square error (RMSE):<\/strong> mengukur kesalahan prediksi rata-rata yang dibuat oleh model saat memprediksi nilai<\/span> <span style=\"color: #000000;\">observasi baru. Ini adalah jarak rata-rata antara nilai sebenarnya dari suatu observasi dan nilai yang diprediksi oleh model.<\/span> Nilai <span style=\"color: #000000;\">RMSE<\/span> <span style=\"color: #000000;\">yang lebih rendah<\/span> menunjukkan kesesuaian model yang lebih baik.<\/p>\n<p> <span style=\"color: #000000;\"><strong>Mean Absolute Error (MAE):<\/strong> Ini adalah perbedaan absolut rata-rata antara nilai sebenarnya dari suatu observasi dan nilai yang diprediksi oleh model.<\/span> <span style=\"color: #000000;\">Metrik ini umumnya kurang sensitif terhadap outlier dibandingkan RMSE. Nilai MAE yang lebih rendah menunjukkan kecocokan model yang lebih baik.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Menerapkan empat teknik validasi silang yang berbeda di R<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\">Kami kemudian akan menjelaskan cara menerapkan teknik validasi silang berikut di R:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Pendekatan set validasi<\/span><br \/> <span style=\"color: #000000;\"><strong>2.<\/strong> validasi silang k-fold<\/span><br \/> <span style=\"color: #000000;\"><strong>3.<\/strong> Abaikan validasi silang<\/span><br \/> <span style=\"color: #000000;\"><strong>4.<\/strong> Validasi silang k-fold berulang<\/span><\/p>\n<p> <span style=\"color: #000000;\">Untuk mengilustrasikan cara menggunakan teknik-teknik yang berbeda ini, kita akan menggunakan subset dari dataset R bawaan <em>mtcars<\/em> :<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#define dataset\n<\/span>data &lt;- mtcars[, c(\"mpg\", \"disp\", \"hp\", \"drat\")]\n\n<span style=\"color: #008080;\">#view first six rows of new data\n<\/span>head(data)\n\n# mpg disp hp drat\n#Mazda RX4 21.0 160 110 3.90\n#Mazda RX4 Wag 21.0 160 110 3.90\n#Datsun 710 22.8 108 93 3.85\n#Hornet 4 Drive 21.4 258 110 3.08\n#Hornet Sportabout 18.7 360 175 3.15\n#Valiant 18.1 225 105 2.76\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Kita akan membangun model regresi linier berganda dengan menggunakan <em>disp<\/em> , <em>hp<\/em> dan <em>drat<\/em> sebagai variabel prediktor dan <em>mpg<\/em><\/span> <span style=\"color: #000000;\">sebagai variabel respon.<\/span><\/p>\n<h2> <strong><span style=\"color: #000000;\">Pendekatan set validasi<\/span><\/strong><\/h2>\n<p> <span style=\"color: #000000;\"><strong>Pendekatan set validasi<\/strong> bekerja sebagai berikut:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Bagilah data menjadi dua set: satu set digunakan untuk melatih model (yaitu memperkirakan parameter model)<\/span> <span style=\"color: #000000;\">dan set lainnya digunakan untuk menguji model. Umumnya, set pelatihan dihasilkan dengan memilih<\/span> <span style=\"color: #000000;\">70-80% data secara acak, dan 20-30% data sisanya digunakan sebagai set pengujian.<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>2.<\/strong> Buat model menggunakan dataset pelatihan.<\/span><br \/> <span style=\"color: #000000;\"><strong>3.<\/strong> Gunakan model untuk membuat prediksi tentang data set pengujian.<\/span><br \/> <span style=\"color: #000000;\"><strong>4.<\/strong> Ukur kualitas model menggunakan metrik seperti R-squared, RMSE, dan MAE.<\/span><\/p>\n<h3> <strong><span style=\"color: #000000;\">Contoh:<\/span><\/strong><\/h3>\n<p> <span style=\"color: #000000;\">Contoh berikut menggunakan kumpulan data yang kami definisikan di atas. Pertama, kita bagi datanya menjadi<\/span><br \/> <span style=\"color: #000000;\">satu set pelatihan dan satu set pengujian, menggunakan 80% data sebagai set pelatihan dan 20% sisanya<\/span> <span style=\"color: #000000;\">sebagai set pengujian. Selanjutnya, kita membangun model menggunakan<\/span> <span style=\"color: #000000;\">set pelatihan. Kemudian kami menggunakan model tersebut untuk membuat prediksi tentang set pengujian. Terakhir, kami mengukur kualitas model<\/span> <span style=\"color: #000000;\">menggunakan R-squared, RMSE dan MAE.<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#load <em>dplyr<\/em> library used for data manipulation\n<\/span>library(dplyr)\n\n<span style=\"color: #008080;\">#load <em>caret<\/em> library used for partitioning data into training and test set\n<\/span>library(caret)\n\n<span style=\"color: #008080;\">#make this example reproducible\n<\/span>set.seed(0)\n\n<span style=\"color: #008080;\">#define the dataset\n<\/span>data &lt;- mtcars[, c(\"mpg\", \"disp\", \"hp\", \"drat\")]\n\n<span style=\"color: #008080;\">#split the dataset into a training set (80%) and test set (20%).\n<\/span>training_obs &lt;- data$mpg %&gt;% createDataPartition(p = 0.8, list = FALSE)\n\ntrain &lt;- data[training_obs, ]\ntest &lt;- data[-training_obs, ]\n\n<span style=\"color: #008080;\"># Build the linear regression model on the training set\n<\/span>model &lt;- lm(mpg ~ ., data = train)\n\n<span style=\"color: #008080;\"># Use the model to make predictions on the test set\n<\/span>predictions &lt;- model %&gt;% predict(test)\n\n<span style=\"color: #008080;\">#Examine R-squared, RMSE, and MAE of predictions\n<\/span>data.frame(R_squared = R2(predictions, test$mpg),\n           RMSE = RMSE(predictions, test$mpg),\n           MAE = MAE(predictions, test$mpg))\n\n#R_squared RMSE MAE\n#1 0.9213066 1.876038 1.66614\n<\/strong><\/pre>\n<p> <span style=\"color: #000000;\">Saat membandingkan model yang berbeda, model yang menghasilkan RMSE terendah pada set pengujian adalah model yang disukai.<\/span><\/p>\n<h3> <span style=\"color: #000000;\"><strong>Keuntungan dan kerugian dari pendekatan ini<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Keuntungan pendekatan set validasi adalah sederhana dan efisien secara komputasi. Kekurangannya<\/span> <span style=\"color: #000000;\">adalah model yang dibangun hanya menggunakan sebagian dari total data. Jika data yang kita tinggalkan<\/span> <span style=\"color: #000000;\">dari set pelatihan berisi informasi menarik atau berharga, model tidak akan memperhitungkannya.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>pendekatan validasi silang k-fold<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\"><strong>Pendekatan validasi silang k-fold<\/strong> bekerja sebagai berikut:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Bagi data secara acak menjadi k \u201clipatan\u201d atau himpunan bagian (misalnya, 5 atau 10 himpunan bagian).<\/span><br \/> <span style=\"color: #000000;\"><strong>2.<\/strong> Latih model pada semua data, sisakan hanya satu subset.<\/span><br \/> <span style=\"color: #000000;\"><strong>3.<\/strong> Gunakan model untuk membuat prediksi tentang data dari subset yang ditinggalkan.<\/span><br \/> <span style=\"color: #000000;\"><strong>4.<\/strong> Ulangi proses ini hingga masing-masing k subset digunakan sebagai set pengujian.<\/span><br \/> <span style=\"color: #000000;\"><strong>5<\/strong> . Ukur kualitas model dengan merata-ratakan kesalahan uji k. Ini diketahui<\/span><br \/> <span style=\"color: #000000;\">sebagai kesalahan validasi silang.<\/span><\/p>\n<h3> <strong><span style=\"color: #000000;\">Contoh<\/span><\/strong><\/h3>\n<p> <span style=\"color: #000000;\">Dalam contoh ini, pertama-tama kita membagi data menjadi<\/span> <span style=\"color: #000000;\">5 subset. Kemudian kami menyesuaikan model tersebut dengan menggunakan semua kecuali sebagian data. Kemudian kami menggunakan model tersebut untuk membuat<\/span> <span style=\"color: #000000;\">prediksi tentang subset yang ditinggalkan dan mencatat kesalahan pengujian (menggunakan R-squared, RMSE, dan MAE). Kami<\/span> <span style=\"color: #000000;\">ulangi proses ini sampai setiap subset digunakan sebagai set pengujian. Kemudian kita tinggal menghitung rata-rata dari 5<\/span> <span style=\"color: #000000;\">kesalahan pengujian.<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#load <em>dplyr<\/em> library used for data manipulation\n<\/span>library(dplyr)\n\n<span style=\"color: #008080;\">#load <em>caret<\/em> library used for partitioning data into training and test set\n<\/span>library(caret)\n\n<span style=\"color: #008080;\">#make this example reproducible\n<\/span>set.seed(0)\n\n<span style=\"color: #008080;\">#define the dataset\n<\/span>data &lt;- mtcars[, c(\"mpg\", \"disp\", \"hp\", \"drat\")]\n\n<span style=\"color: #008080;\">#define the number of subsets (or \"folds\") to use\n<\/span>train_control &lt;- trainControl(method = \"cv\", number = 5)\n\n<span style=\"color: #008080;\">#train the model\n<\/span>model &lt;- train(mpg ~ ., data = data, method = \"lm\", trControl = train_control)\n\n<span style=\"color: #008080;\">#Summarize the results\n<\/span>print(model)\n\n#Linear Regression \n#\n#32 samples\n#3 predictor\n#\n#No pre-processing\n#Resampling: Cross-Validated (5 fold) \n#Summary of sample sizes: 26, 25, 26, 25, 26 \n#Resampling results:\n#\n# RMSE Rsquared MAE     \n#3.095501 0.7661981 2.467427\n#\n#Tuning parameter 'intercept' was held constant at a value of TRUE\n<\/strong><\/pre>\n<h3> <strong><span style=\"color: #000000;\">Keuntungan dan kerugian dari pendekatan ini<\/span><\/strong><\/h3>\n<p> <span style=\"color: #000000;\">Keuntungan pendekatan validasi silang k-fold dibandingkan pendekatan set validasi adalah pendekatan ini membangun model beberapa kali<\/span> <span style=\"color: #000000;\">dengan menggunakan bagian data yang berbeda setiap kali, sehingga kita tidak perlu menghilangkan data penting saat membuat<\/span> <span style=\"color: #000000;\">model.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Bagian subjektif dari pendekatan ini adalah memilih nilai yang akan digunakan untuk k, yaitu jumlah himpunan bagian untuk membagi<\/span> <span style=\"color: #000000;\">data. Secara umum, nilai k yang lebih rendah menghasilkan bias yang lebih tinggi tetapi variabilitasnya lebih rendah, sedangkan nilai k yang lebih tinggi<\/span> <span style=\"color: #000000;\">menghasilkan bias yang lebih rendah tetapi variabilitasnya lebih tinggi.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Dalam praktiknya, k umumnya dipilih sama dengan 5 atau 10, karena jumlah<\/span> <span style=\"color: #000000;\">himpunan bagian ini cenderung menghindari terlalu banyak bias dan terlalu banyak variabilitas secara bersamaan.<\/span><\/p>\n<h2> <span style=\"color: #000000;\"><strong>Tinggalkan pendekatan One Out Cross-Validation (LOOCV).<\/strong><\/span><\/h2>\n<p> <span style=\"color: #000000;\"><strong>Pendekatan LOOCV<\/strong> bekerja sebagai berikut:<\/span><\/p>\n<p> <span style=\"color: #000000;\"><strong>1.<\/strong> Bangun model menggunakan semua kecuali satu observasi dalam kumpulan data.<\/span><br \/> <span style=\"color: #000000;\"><strong>2.<\/strong> Gunakan model untuk memprediksi nilai observasi yang hilang. Catat kesalahan pengujian prediksi ini.<\/span><br \/> <span style=\"color: #000000;\"><strong>3.<\/strong> Ulangi proses ini untuk setiap observasi dalam kumpulan data.<\/span><br \/> <span style=\"color: #000000;\"><strong>4.<\/strong> Ukur kualitas model dengan merata-ratakan semua kesalahan prediksi.<\/span><\/p>\n<h3> <strong><span style=\"color: #000000;\">Contoh<\/span><\/strong><\/h3>\n<p> <span style=\"color: #000000;\">Contoh berikut menunjukkan cara menggunakan perform LOOCV untuk kumpulan data yang sama dengan yang digunakan pada contoh sebelumnya:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#load <em>dplyr<\/em> library used for data manipulation\n<\/span>library(dplyr)\n\n<span style=\"color: #008080;\">#load <em>caret<\/em> library used for partitioning data into training and test set\n<\/span>library(caret)\n\n<span style=\"color: #008080;\">#make this example reproducible\n<\/span>set.seed(0)\n\n<span style=\"color: #008080;\">#define the dataset\n<\/span>data &lt;- mtcars[, c(\"mpg\", \"disp\", \"hp\", \"drat\")]\n\n<span style=\"color: #008080;\">#specify that we want to use LOOCV\n<\/span>train_control &lt;- trainControl( <span style=\"color: #800080;\">method = \"LOOCV\"<\/span> )\n\n<span style=\"color: #008080;\">#train the model\n<\/span>model &lt;- train(mpg ~ ., data = data, method = \"lm\", trControl = train_control)\n\n<span style=\"color: #008080;\">#summarize the results\n<\/span>print(model)\n\n#Linear Regression \n#\n#32 samples\n#3 predictor\n#\n#No pre-processing\n#Resampling: Leave-One-Out Cross-Validation \n#Summary of sample sizes: 31, 31, 31, 31, 31, 31, ... \n#Resampling results:\n#\n# RMSE Rsquared MAE     \n#3.168763 0.7170704 2.503544\n#\n#Tuning parameter 'intercept' was held constant at a value of TRUE\n<\/strong><\/pre>\n<h3> <span style=\"color: #000000;\"><strong>Keuntungan dan kerugian dari pendekatan ini<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Keuntungan LOOCV adalah kami menggunakan semua titik data, yang secara umum mengurangi potensi bias. Namun, karena<\/span> <span style=\"color: #000000;\">kita menggunakan model tersebut untuk memprediksi nilai setiap observasi, hal ini dapat menyebabkan variabilitas yang lebih besar dalam<\/span> <span style=\"color: #000000;\">kesalahan prediksi.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Kelemahan lain dari pendekatan ini adalah pendekatan ini harus sesuai dengan sejumlah besar model sehingga menjadi tidak efisien dan berat secara komputasi.<\/span><\/p>\n<h2> <strong><span style=\"color: #000000;\">Pendekatan validasi silang k-fold yang berulang<\/span><\/strong><\/h2>\n<p> <span style=\"color: #000000;\">Kita dapat melakukan <strong>validasi silang k-fold berulang<\/strong> hanya dengan melakukan validasi silang k-fold beberapa kali. Kesalahan terakhir adalah kesalahan rata-rata dari jumlah<\/span> <span style=\"color: #000000;\">pengulangan.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Contoh berikut melakukan validasi silang 5 kali lipat, diulangi sebanyak 4 kali:<\/span><\/p>\n<pre style=\"background-color: #e5e5e5; font-size: 15px;\"> <strong><span style=\"color: #008080;\">#load <em>dplyr<\/em> library used for data manipulation\n<\/span>library(dplyr)\n\n<span style=\"color: #008080;\">#load <em>caret<\/em> library used for partitioning data into training and test set\n<\/span>library(caret)\n\n<span style=\"color: #008080;\">#make this example reproducible\n<\/span>set.seed(0)\n\n<span style=\"color: #008080;\">#define the dataset\n<\/span>data &lt;- mtcars[, c(\"mpg\", \"disp\", \"hp\", \"drat\")]\n\n<span style=\"color: #008080;\">#define the number of subsets to use and number of times to repeat k-fold CV\n<\/span>train_control &lt;- trainControl(method = \"repeatedcv\", number = 5, <span style=\"color: #800080;\">repeats = 4<\/span> )\n\n<span style=\"color: #008080;\">#train the model\n<\/span>model &lt;- train(mpg ~ ., data = data, method = \"lm\", trControl = train_control)\n\n<span style=\"color: #008080;\">#summarize the results\n<\/span>print(model)\n\n#Linear Regression \n#\n#32 samples\n#3 predictor\n#\n#No pre-processing\n#Resampling: Cross-Validated (5 fold, repeated 4 times) \n#Summary of sample sizes: 26, 25, 26, 25, 26, 25, ... \n#Resampling results:\n#\n# RMSE Rsquared MAE     \n#3.176339 0.7909337 2.559131\n#\n#Tuning parameter 'intercept' was held constant at a value of TRUE\n<\/strong><\/pre>\n<h3> <span style=\"color: #000000;\"><strong>Keuntungan dan kerugian dari pendekatan ini<\/strong><\/span><\/h3>\n<p> <span style=\"color: #000000;\">Keuntungan dari pendekatan validasi silang k-fold berulang adalah bahwa untuk setiap pengulangan, data akan dipecah menjadi subkumpulan yang sedikit berbeda, yang akan memberikan perkiraan kesalahan prediksi model yang lebih tidak bias. Kerugian dari pendekatan ini adalah komputasinya intensif karena kita harus mengulangi proses penyesuaian model beberapa kali.<\/span><\/p>\n<h2> <strong><span style=\"color: #000000;\">Bagaimana memilih jumlah lipatan dalam validasi silang<\/span><\/strong><\/h2>\n<p> <span style=\"color: #000000;\">Bagian paling subyektif dari validasi silang adalah menentukan berapa banyak lipatan (yaitu subset) yang akan digunakan. Secara umum, semakin kecil jumlah lipatan, semakin bias estimasi kesalahannya, namun variabelnya akan semakin kecil. Sebaliknya, semakin tinggi jumlah lipatannya, semakin kecil bias kesalahan estimasinya, namun akan semakin bervariasi.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Penting juga untuk mengingat waktu perhitungan. Untuk setiap lipatan, Anda perlu melatih pola baru, dan meskipun prosesnya lambat, proses ini bisa memakan waktu lama jika Anda memilih jumlah lipatan yang banyak.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Dalam praktiknya, validasi silang biasanya dilakukan sebanyak 5 atau 10 kali lipat, karena hal ini memberikan keseimbangan yang baik antara variabilitas dan bias, sekaligus efisien secara komputasi.<\/span><\/p>\n<h2> <strong>Bagaimana memilih model setelah melakukan validasi silang<\/strong><\/h2>\n<p> <span style=\"color: #000000;\">Validasi silang digunakan untuk mengevaluasi kesalahan prediksi suatu model. Hal ini dapat membantu kita memilih antara dua atau lebih model yang berbeda dengan menyoroti model mana yang memiliki kesalahan prediksi terendah (berdasarkan RMSE, R-squared, dll.).<\/span><\/p>\n<p> <span style=\"color: #000000;\">Setelah kami menggunakan validasi silang untuk memilih model terbaik, kami kemudian menggunakan <em>semua<\/em> data yang tersedia agar sesuai dengan model yang dipilih. Kami tidak menggunakan contoh model aktual yang kami latih selama validasi silang untuk model akhir kami.<\/span><\/p>\n<p> <span style=\"color: #000000;\">Misalnya, kita dapat menggunakan validasi silang 5 kali lipat untuk menentukan model mana yang lebih baik digunakan di antara dua model regresi yang berbeda. Namun, setelah kami mengidentifikasi model mana yang terbaik untuk digunakan, kami menggunakan <em>semua<\/em> data agar sesuai dengan model akhir. Dengan kata lain, kami tidak melupakan lipatan apa pun saat membuat model akhir.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dalam statistik, kita sering membuat model karena dua alasan: Memahami hubungan antara satu atau lebih variabel prediktor dan variabel respon. Gunakan model untuk memprediksi pengamatan di masa depan. Validasi silang berguna untuk memperkirakan seberapa baik suatu model mampu memprediksi observasi di masa depan. Misalnya, kita dapat membangun model regresi linier berganda yang menggunakan usia dan [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[11],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Cara memvalidasi silang kinerja model di R - Statorials<\/title>\n<meta name=\"description\" content=\"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/\" \/>\n<meta property=\"og:locale\" content=\"id_ID\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Cara memvalidasi silang kinerja model di R - Statorials\" \/>\n<meta property=\"og:description\" content=\"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/\" \/>\n<meta property=\"og:site_name\" content=\"Statorials\" \/>\n<meta property=\"article:published_time\" content=\"2023-07-29T15:29:02+00:00\" \/>\n<meta name=\"author\" content=\"Benjamin anderson\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Ditulis oleh\" \/>\n\t<meta name=\"twitter:data1\" content=\"Benjamin anderson\" \/>\n\t<meta name=\"twitter:label2\" content=\"Estimasi waktu membaca\" \/>\n\t<meta name=\"twitter:data2\" content=\"9 menit\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/\",\"url\":\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/\",\"name\":\"Cara memvalidasi silang kinerja model di R - Statorials\",\"isPartOf\":{\"@id\":\"https:\/\/statorials.org\/id\/#website\"},\"datePublished\":\"2023-07-29T15:29:02+00:00\",\"dateModified\":\"2023-07-29T15:29:02+00:00\",\"author\":{\"@id\":\"https:\/\/statorials.org\/id\/#\/schema\/person\/3d17a1160dd2d052b7c78e502cb9ec81\"},\"description\":\"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.\",\"breadcrumb\":{\"@id\":\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/#breadcrumb\"},\"inLanguage\":\"id\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/statorials.org\/id\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Cara melakukan validasi silang untuk kinerja model di r\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/statorials.org\/id\/#website\",\"url\":\"https:\/\/statorials.org\/id\/\",\"name\":\"Statorials\",\"description\":\"Panduan anda untuk kompetensi statistik!\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/statorials.org\/id\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"id\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/statorials.org\/id\/#\/schema\/person\/3d17a1160dd2d052b7c78e502cb9ec81\",\"name\":\"Benjamin anderson\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"id\",\"@id\":\"https:\/\/statorials.org\/id\/#\/schema\/person\/image\/\",\"url\":\"http:\/\/statorials.org\/id\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"contentUrl\":\"http:\/\/statorials.org\/id\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg\",\"caption\":\"Benjamin anderson\"},\"description\":\"Halo, saya Benjamin, pensiunan profesor statistika yang menjadi guru Statorial yang berdedikasi. Dengan pengalaman dan keahlian yang luas di bidang statistika, saya ingin berbagi ilmu untuk memberdayakan mahasiswa melalui Statorials. Baca selengkapnya\",\"sameAs\":[\"http:\/\/statorials.org\/id\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Cara memvalidasi silang kinerja model di R - Statorials","description":"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/","og_locale":"id_ID","og_type":"article","og_title":"Cara memvalidasi silang kinerja model di R - Statorials","og_description":"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.","og_url":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/","og_site_name":"Statorials","article_published_time":"2023-07-29T15:29:02+00:00","author":"Benjamin anderson","twitter_card":"summary_large_image","twitter_misc":{"Ditulis oleh":"Benjamin anderson","Estimasi waktu membaca":"9 menit"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/","url":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/","name":"Cara memvalidasi silang kinerja model di R - Statorials","isPartOf":{"@id":"https:\/\/statorials.org\/id\/#website"},"datePublished":"2023-07-29T15:29:02+00:00","dateModified":"2023-07-29T15:29:02+00:00","author":{"@id":"https:\/\/statorials.org\/id\/#\/schema\/person\/3d17a1160dd2d052b7c78e502cb9ec81"},"description":"Tutorial ini menjelaskan empat cara berbeda untuk melakukan validasi silang di R untuk mengevaluasi performa model.","breadcrumb":{"@id":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/#breadcrumb"},"inLanguage":"id","potentialAction":[{"@type":"ReadAction","target":["https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/statorials.org\/id\/cara-melakukan-validasi-silang-untuk-kinerja-model-di-r\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/statorials.org\/id\/"},{"@type":"ListItem","position":2,"name":"Cara melakukan validasi silang untuk kinerja model di r"}]},{"@type":"WebSite","@id":"https:\/\/statorials.org\/id\/#website","url":"https:\/\/statorials.org\/id\/","name":"Statorials","description":"Panduan anda untuk kompetensi statistik!","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/statorials.org\/id\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"id"},{"@type":"Person","@id":"https:\/\/statorials.org\/id\/#\/schema\/person\/3d17a1160dd2d052b7c78e502cb9ec81","name":"Benjamin anderson","image":{"@type":"ImageObject","inLanguage":"id","@id":"https:\/\/statorials.org\/id\/#\/schema\/person\/image\/","url":"http:\/\/statorials.org\/id\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","contentUrl":"http:\/\/statorials.org\/id\/wp-content\/uploads\/2023\/10\/Dr.-Benjamin-Anderson-96x96.jpg","caption":"Benjamin anderson"},"description":"Halo, saya Benjamin, pensiunan profesor statistika yang menjadi guru Statorial yang berdedikasi. Dengan pengalaman dan keahlian yang luas di bidang statistika, saya ingin berbagi ilmu untuk memberdayakan mahasiswa melalui Statorials. Baca selengkapnya","sameAs":["http:\/\/statorials.org\/id"]}]}},"yoast_meta":{"yoast_wpseo_title":"","yoast_wpseo_metadesc":"","yoast_wpseo_canonical":""},"_links":{"self":[{"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/posts\/521"}],"collection":[{"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/comments?post=521"}],"version-history":[{"count":0,"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/posts\/521\/revisions"}],"wp:attachment":[{"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/media?parent=521"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/categories?post=521"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statorials.org\/id\/wp-json\/wp\/v2\/tags?post=521"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}