Cara membuat matriks korelasi di stata
Dalam statistik, kita sering kali berusaha memahami hubungan antara dua variabel. Misalnya, kita mungkin ingin memahami hubungan antara jumlah jam belajar siswa dan nilai ujian yang mereka terima.
Salah satu cara untuk mengukur hubungan ini adalah dengan menggunakan koefisien korelasi Pearson , yang merupakan ukuran hubungan linear antara dua variabel . Ini memiliki nilai antara -1 dan 1 di mana:
- -1 menunjukkan korelasi linier negatif sempurna antara dua variabel
- 0 menunjukkan tidak ada korelasi linier antara dua variabel
- Angka 1 menunjukkan korelasi linier positif sempurna antara dua variabel
Semakin jauh koefisien korelasi dari nol maka semakin kuat hubungan kedua variabel tersebut.
Namun dalam beberapa kasus, kami ingin memahami korelasi antara beberapa pasangan variabel. Dalam kasus ini, kita dapat membuat matriks korelasi , yaitu tabel persegi yang menunjukkan koefisien korelasi antara beberapa kombinasi variabel berpasangan.
Dalam tutorial ini kami menjelaskan cara membuat matriks korelasi di Stata.
Cara membuat matriks korelasi di Stata
Perintah corr dapat digunakan untuk menghasilkan matriks korelasi untuk dataset tertentu di Stata.
Untuk mengilustrasikannya, mari muat data sensus 1980 ke dalam Stata dengan mengetikkan perintah berikut di kotak perintah:
gunakan https://www.stata-press.com/data/r13/census13
Kita kemudian bisa mendapatkan ringkasan singkat dari kumpulan data dengan mengetikkan perintah berikut ke dalam kotak perintah:
untuk meringkas
Ini menghasilkan tabel berikut:
Kami melihat bahwa kumpulan data berisi sembilan variabel berbeda. Untuk membuat matriks korelasi untuk setiap kombinasi variabel berpasangan dalam kumpulan data, kita dapat memasukkan yang berikut ini ke dalam kotak perintah:
benar
Ini menghasilkan matriks korelasi berikut:
Angka-angka yang ditampilkan dalam tabel mewakili koefisien korelasi Pearson untuk setiap kombinasi variabel berpasangan. Misalnya korelasi antara populasi dan negara bagian adalah -0,0540 . Hal ini menunjukkan bahwa kedua variabel tersebut berkorelasi sedikit negatif.
Perhatikan bahwa korelasi sepanjang diagonal tabel masing-masing adalah 1,0000, karena setiap variabel berkorelasi sempurna dengan variabelnya sendiri.
Anda juga dapat membuat matriks korelasi hanya untuk subkumpulan variabel tertentu dalam kumpulan data dengan menentukan variabel setelah perintah corr . Misalnya, berikut cara membuat matriks korelasi hanya untuk variabel pop , medage , dan region :
wilayah media pop yang tepat
Ini menghasilkan matriks korelasi berikut hanya untuk ketiga variabel ini:
Dimungkinkan juga untuk menempatkan bintang di sebelah koefisien korelasi yang signifikan secara statistik pada tingkat signifikansi tertentu menggunakan perintah pwcorr (yang menghasilkan hasil yang sama seperti corr ) dengan perintah star() .
Misalnya, kode berikut menghasilkan matriks korelasi untuk setiap variabel dalam kumpulan data sensus dan menempatkan bintang di sebelah koefisien korelasi yang signifikan secara statistik pada α = 0,05:
pwcorr, bintang (.05)
Perhatikan bagaimana beberapa koefisien korelasi dalam tabel signifikan secara statistik pada α = 0,05. Kita dapat menyetel α ke angka berapa pun yang kita inginkan, namun pilihan umum adalah 0,01, 0,05, dan 0,10.
Secara umum, semakin rendah nilai α, maka koefisien korelasinya akan semakin tidak signifikan secara statistik. Misalnya, kita menetapkan α = 0,01.
pwcorr, bintang (.01)
Perhatikan betapa sedikitnya koefisien korelasi yang memiliki bintang di sebelahnya.