Apa asumsi independensi dalam statistik?
Banyak uji statistik berasumsi bahwa observasi bersifat independen. Artinya tidak ada pengamatan dalam kumpulan data yang berhubungan satu sama lain atau mempengaruhi satu sama lain dengan cara apa pun.
Misalnya, kita ingin menguji ada tidaknya perbedaan berat rata-rata antara dua spesies kucing. Jika kita mengukur bobot 10 kucing spesies A dan 10 kucing spesies B, maka asumsi independensi akan dilanggar jika masing-masing kelompok kucing tersebut berasal dari serasah yang sama.
Ada kemungkinan bahwa induk kucing dari Spesies A memiliki semua anak kucing yang berbobot rendah, sedangkan induk kucing dari Spesies B memiliki anak kucing yang berat. Dalam hal ini, observasi setiap sampel tidak berdiri sendiri satu sama lain.
Ada tiga jenis uji statistik umum yang membuat asumsi independensi ini:
Pada bagian berikut, kami menjelaskan mengapa asumsi ini dibuat untuk setiap jenis pengujian serta cara menentukan apakah asumsi ini terpenuhi atau tidak.
Asumsi independensi dalam uji-t
Uji-t dua sampel digunakan untuk menguji apakah rata-rata dua populasi sama atau tidak.
Asumsi: Jenis tes ini mengasumsikan bahwa observasi dalam setiap sampel tidak bergantung satu sama lain dan observasi antar sampel juga tidak bergantung satu sama lain.
Uji hipotesis ini: Cara paling sederhana untuk menguji hipotesis ini adalah dengan memverifikasi bahwa setiap observasi hanya muncul satu kali dalam setiap sampel dan bahwa observasi dalam setiap sampel dikumpulkan dengan pengambilan sampel acak.
Asumsi independensi dalam ANOVA
ANOVA digunakan untuk menentukan apakah terdapat perbedaan yang signifikan antara rata-rata tiga atau lebih kelompok independen.
Asumsi: ANOVA mengasumsikan bahwa pengamatan dalam setiap kelompok tidak tergantung satu sama lain dan bahwa pengamatan dalam kelompok diperoleh melalui sampel acak.
Uji hipotesis ini: Mirip dengan uji-t, cara paling sederhana untuk menguji hipotesis ini adalah dengan memverifikasi bahwa setiap observasi hanya muncul satu kali dalam setiap sampel dan bahwa observasi dalam setiap sampel dikumpulkan dengan pengambilan sampel secara acak.
Independensi dalam regresi yang diasumsikan
Regresi linier digunakan untuk memahami hubungan antara satu atau lebih variabel prediktor dan variabel respon .
Asumsi: Regresi linier mengasumsikan bahwa residu model yang dipasang adalah independen.
Uji hipotesis ini: Cara termudah untuk menguji hipotesis ini adalah dengan melihat plot residu deret waktu, yang merupakan plot residu versus waktu. Idealnya, sebagian besar autokorelasi sisa harus berada dalam pita kepercayaan 95% di sekitar nol, yang terletak kira-kira +/- 2 pada akar kuadrat n , dengan n adalah ukuran sampel. Anda juga dapat menguji secara formal apakah asumsi ini terpenuhi menggunakan uji Durbin-Watson .
Sumber Umum Non-Kemerdekaan
Ada tiga sumber umum non-independensi dalam kumpulan data:
1. Pengamatan ditutup bersamaan dalam waktu.
Misalnya, seorang peneliti mungkin mengumpulkan data tentang kecepatan rata-rata mobil di jalan tertentu. Jika dia memilih untuk melacak kecepatan di malam hari, dia mungkin mendapati bahwa kecepatan rata-rata jauh lebih tinggi dari perkiraannya hanya karena setiap pengemudi bergegas pulang kerja.
Data ini melanggar asumsi bahwa setiap observasi bersifat independen. Karena setiap pengamatan diamati pada waktu yang sama, kecepatan setiap mobil kemungkinan besar akan sama.
2. Pengamatan dilakukan secara tertutup dalam ruang.
Misalnya, seorang peneliti mungkin mengumpulkan data pendapatan tahunan dari orang-orang yang semuanya tinggal di lingkungan berpendapatan tinggi yang sama karena hal tersebut memudahkannya.
Dalam hal ini, semua orang yang dimasukkan dalam sampel data kemungkinan besar memiliki pendapatan yang sama karena mereka semua tinggal berdekatan. Hal ini melanggar asumsi bahwa setiap observasi bersifat independen.
3. Pengamatan muncul beberapa kali dalam kumpulan data yang sama.
Misalnya, seorang peneliti mungkin perlu mengumpulkan data pada 50 individu, namun malah memutuskan untuk mengumpulkan data pada 25 individu sebanyak dua kali karena hal ini lebih mudah dilakukan.
Hal ini melanggar asumsi independensi karena setiap observasi dalam dataset akan berhubungan dengan dirinya sendiri.
Bagaimana menghindari pelanggaran asumsi independensi
Cara paling sederhana untuk menghindari pelanggaran asumsi independensi adalah dengan menggunakan simple random sampling ketika memperoleh sampel dari suatu populasi.
Dengan menggunakan metode ini, setiap individu dalam populasi yang diteliti mempunyai peluang yang sama untuk dijadikan sampel.
Misalnya, jika populasi yang kita minati berisi 10.000 individu, kita dapat secara acak menetapkan nomor untuk setiap individu dalam populasi dan kemudian menggunakan generator nomor acak untuk memilih 40 nomor acak. Individu yang cocok dengan angka-angka ini kemudian akan dimasukkan dalam sampel.
Dengan menggunakan metode ini, kami meminimalkan kemungkinan memilih dua individu yang mungkin sangat dekat satu sama lain atau yang mungkin memiliki hubungan kekerabatan.
Hal ini berbeda dengan metode pengambilan sampel lainnya seperti:
- Convenience sampling: memasukkan individu-individu dalam sampel yang mudah dijangkau.
- Pengambilan sampel sukarela: memasukkan individu-individu dalam sampel yang secara sukarela diikutsertakan.
Dengan menggunakan metode random sampling, kita dapat meminimalkan kemungkinan pelanggaran asumsi independensi.
Sumber daya tambahan
Keempat hipotesis dirumuskan dalam uji T
Empat asumsi regresi linier
Tiga hipotesis ANOVA
Apa yang dimaksud dengan sampel representatif dan mengapa itu penting?