Apa yang dimaksud dengan distribusi bersyarat dalam statistik?


Jika X dan Y adalah dua variabel acak yang terdistribusi bersama, maka distribusi bersyarat dari Y jika X adalah distribusi probabilitas Y ketika X diketahui suatu nilai tertentu.

Misalnya, tabel dua arah berikut menunjukkan hasil survei yang menanyakan kepada 100 orang olahraga apa yang mereka sukai: baseball, bola basket, atau sepak bola.

Jika kita ingin mengetahui peluang seseorang menyukai olahraga tertentu mengingat dia laki-laki, maka ini adalah contoh distribusi bersyarat.

Nilai salah satu variabel acak diketahui (orangnya laki-laki), tetapi nilai variabel acak lainnya tidak diketahui (kita tidak tahu olahraga kesukaannya).

Untuk mengetahui distribusi kondisional preferensi olahraga di kalangan pria, kita cukup melihat nilai garis untuk pria dalam tabel:

Contoh Distribusi Bersyarat

Distribusi bersyarat akan dihitung sebagai berikut:

  • Pria yang menyukai baseball: 13/48 = 0,2708
  • Pria yang menyukai bola basket: 15/48 = 0,3125
  • Pria yang menyukai sepak bola: 20/48 = 0,4167

Perhatikan bahwa jumlah total probabilitasnya adalah 1: 13/48 + 15/48 + 20/48 = 48/48 = 1.

Kita dapat menggunakan distribusi bersyarat ini untuk menjawab pertanyaan seperti: Mengingat seseorang adalah laki-laki, berapakah probabilitas bahwa bisbol adalah olahraga favoritnya?

Dari distribusi kondisional yang kita hitung sebelumnya, kita dapat melihat bahwa probabilitasnya adalah 0.2708 .

Dalam istilah teknis, ketika kita menghitung distribusi bersyarat, kita mengatakan bahwa kita tertarik pada subpopulasi tertentu dari keseluruhan populasi. Subpopulasi pada contoh sebelumnya terdiri dari laki-laki:

Subpopulasi untuk distribusi bersyarat

Dan ketika kita ingin menghitung probabilitas yang terkait dengan subpopulasi ini, kita mengatakan bahwa kita tertarik pada karakter tertentu yang diminati . Karakter yang menarik pada contoh sebelumnya adalah baseball:

Distribusi bersyarat dalam statistik

Untuk mencari peluang munculnya sifat yang diminati pada subpopulasi, kita cukup membagi nilai sifat yang diminati (misalnya 13) dengan nilai total subpopulasi (misalnya 48) sehingga diperoleh 13/48 = 0,2708 .

Distribusi bersyarat dan kemandirian

Kita dapat mengatakan bahwa variabel acak X dan Y adalah independen jika dan hanya jika distribusi bersyarat dari Y jika X , untuk semua kemungkinan realisasi X , sama dengan distribusi tanpa syarat dari Y.

Misalnya, pada tabel sebelumnya, dapatkah kita melihat bahwa tes “lebih menyukai baseball” dan “pria” bersifat independen?

Untuk menjawab pertanyaan ini, mari kita hitung probabilitas berikut:

  • P (lebih suka baseball)
  • P(lebih suka baseball | laki-laki) “lebih suka baseball, mengingat mereka laki-laki

Peluang seseorang menyukai bisbol adalah:

  • P (lebih suka baseball) = 36/100 = 0,36 .

Peluang seseorang lebih menyukai bisbol, mengingat dia laki-laki, adalah

  • P (lebih suka baseball | pria) = 13/48 = .2708 .

Karena P(lebih menyukai baseball) tidak sama dengan P(lebih menyukai baseball | pria), maka variabel acak preferensi olahraga dan gender tidak independen.

Mengapa menggunakan distribusi bersyarat?

Distribusi probabilitas bersyarat berguna karena kita sering mengumpulkan data untuk dua variabel (seperti gender dan preferensi olahraga), namun kita ingin menjawab pertanyaan tentang probabilitas ketika kita mengetahui nilai salah satu variabel.

Dalam contoh sebelumnya, kami mempertimbangkan skenario ketika kami mengetahui bahwa seseorang adalah laki-laki dan kami hanya ingin mengetahui kemungkinan bahwa orang tersebut lebih memilih bisbol.

Ada banyak kasus dalam kehidupan nyata di mana kita mengetahui nilai suatu variabel dan dapat menggunakan distribusi bersyarat untuk mencari kemungkinan variabel lain mengambil nilai tertentu.

Sumber daya tambahan

Apa itu distribusi marjinal?
Apa yang dimaksud dengan distribusi probabilitas gabungan?
Bagaimana menemukan frekuensi relatif bersyarat dalam tabel entri ganda

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *