Cara mendapatkan nilai prediksi dan residu di stata
Regresi linier merupakan suatu metode yang dapat kita gunakan untuk memahami hubungan antara satu atau lebih variabel penjelas dan suatu variabel respon.
Saat kita melakukan regresi linier pada kumpulan data, kita akan mendapatkan persamaan regresi yang dapat digunakan untuk memprediksi nilai variabel respons, dengan mempertimbangkan nilai variabel penjelas.
Selisih antara nilai prediksi dan nilai sebenarnya dapat kita ukur untuk mendapatkan residu dari setiap prediksi. Ini membantu kami mendapatkan gambaran tentang seberapa baik model regresi kami memprediksi nilai respons.
Tutorial ini menjelaskan cara mendapatkan nilai prediksi dan residu untuk model regresi di Stata.
Contoh: Cara mendapatkan nilai prediksi dan residu
Untuk contoh ini, kita akan menggunakan dataset Stata bawaan yang disebut auto . Kami akan menggunakan mpg dan perpindahan sebagai variabel penjelas dan harga sebagai variabel respon.
Gunakan langkah-langkah berikut untuk melakukan regresi linier dan kemudian dapatkan nilai prediksi dan residu untuk model regresi.
Langkah 1: Muat dan tampilkan data.
Pertama, kita akan memuat data menggunakan perintah berikut:
penggunaan otomatis sistem
Selanjutnya, kita akan mendapatkan ringkasan singkat data menggunakan perintah berikut:
untuk meringkas
Langkah 2: Sesuaikan model regresi.
Selanjutnya, kita akan menggunakan perintah berikut untuk menyesuaikan model regresi:
perpindahan harga mpg regresi
Persamaan regresi yang diperkirakan adalah:
perkiraan harga = 6672.766 -121.1833*(mpg) + 10.50885*(perpindahan)
Langkah 3: Dapatkan nilai prediksi.
Kita bisa mendapatkan nilai prediksi dengan menggunakan perintah prediksi dan menyimpan nilai tersebut ke dalam variabel dengan nama sesuai keinginan. Dalam hal ini, kita akan menggunakan nama pred_price :
prediksi harga_pred
Kita dapat menampilkan harga aktual dan prediksi harga secara berdampingan menggunakan perintah daftar . Total ada 74 nilai prediksi, namun kami hanya akan menampilkan 10 nilai pertama menggunakan perintah in 1/10 :
daftar harga pred_price dalam 1/10
Langkah 4: Dapatkan residunya.
Kita bisa mendapatkan sisa dari setiap prediksi dengan menggunakan perintah sisa dan menyimpan nilai tersebut dalam variabel dengan nama apapun yang kita inginkan. Dalam hal ini, kita akan menggunakan nama resid_price :
prediksi harga_residensi, sisa
Kita dapat menampilkan harga sebenarnya, harga yang diharapkan, dan sisa secara berdampingan menggunakan perintah daftar lagi:
daftar harga pred_price resid_price dalam 1/10
Langkah 5: Buat plot nilai prediksi terhadap residu.
Terakhir, kita dapat membuat diagram sebar untuk memvisualisasikan hubungan antara nilai prediksi dan residu:
dispersi live_price pred_price
Kita dapat melihat bahwa rata-rata residu cenderung meningkat seiring dengan meningkatnya nilai yang dipasang. Hal ini bisa menjadi tanda terjadinya heteroskedastisitas – ketika distribusi residu tidak konstan pada setiap tingkat respons.
Kita dapat menguji heteroskedastisitas secara formal menggunakan uji Breusch-Pagan dan mengatasinya dengan menggunakan kesalahan standar yang kuat .