Apa observasi yang berpengaruh dalam statistik?


Dalam statistik, observasi berpengaruh adalah observasi dalam kumpulan data yang, jika dihilangkan, akan mengubah estimasi koefisien model regresi secara signifikan.

Cara paling umum untuk mengukur pengaruh observasi adalah dengan menggunakan jarak Cook , yang mengukur seberapa besar semua nilai yang dipasang dalam model regresi berubah ketika observasi ke -i dihapus.

Secara umum, observasi apa pun dengan jarak Cook lebih besar dari 1 dianggap sebagai observasi leverage tinggi.

Contoh berikut menunjukkan cara menghitung dan menafsirkan jarak Cook untuk kumpulan data tertentu guna mendeteksi potensi pengamatan yang berpengaruh.

Contoh: Deteksi observasi yang berpengaruh

Misalkan kita memiliki kumpulan data berikut dengan 14 nilai:

Sekarang anggaplah kita cocok dengan model regresi linier sederhana . Hasil regresi disajikan di bawah ini:

Dengan menggunakan perangkat lunak statistik, kita dapat menghitung nilai jarak Cook berikut untuk setiap observasi:

Perhatikan bahwa observasi terakhir memiliki nilai yang jauh lebih besar dari 1 untuk jarak Cook, yang menunjukkan bahwa ini adalah observasi yang berpengaruh.

Misalkan kita menghapus nilai ini dari kumpulan data dan menyesuaikan model regresi linier sederhana yang baru. Output dari model ini ditunjukkan di bawah ini:

Perhatikan bahwa koefisien regresi untuk intersep dan x keduanya berubah secara dramatis. Hal ini menunjukkan bahwa menghapus observasi berpengaruh dari kumpulan data sepenuhnya mengubah model regresi yang sesuai.

Grafik berikut menunjukkan perbedaan antara kedua persamaan regresi tersebut:

Perhatikan seberapa besar pengaruh observasi tunggal mengubah garis regresi. Dengan menghilangkan observasi ini, kami dapat menemukan garis regresi yang lebih sesuai dengan data.

Komentar

Penting untuk dicatat bahwa jarak Cook harus digunakan untuk mengidentifikasi observasi yang berpotensi berpengaruh. Namun, hanya karena sebuah observasi berpengaruh tidak berarti observasi tersebut harus dihapus dari kumpulan data.

Pertama, Anda perlu memverifikasi bahwa observasi tersebut bukan merupakan hasil kesalahan entri data atau kejadian aneh lainnya. Jika ternyata merupakan nilai yang sah, Anda dapat memutuskan untuk memperlakukannya dengan salah satu cara berikut:

  • Hapus dari kumpulan data.
  • Biarkan di kumpulan data.
  • Gantikan dengan nilai alternatif seperti mean atau median.

Bergantung pada skenario spesifik Anda, salah satu opsi ini mungkin lebih masuk akal dibandingkan opsi lainnya.

Cara menghitung jarak juru masak dalam praktek

Tutorial berikut menjelaskan cara menghitung jarak Cook untuk kumpulan data tertentu dengan Python dan R:

Cara Menghitung Jarak Masak dengan Python
Cara menghitung jarak Cook di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *