Plot titik adalah jenis plot yang menampilkan frekuensi nilai dalam kumpulan data menggunakan titik-titik bertumpuk. Seringkali saat kita membuat plot titik, kita ingin mengukur pusat dan distribusinya: Center : Titik pusat dari dataset. Kita sering menggunakan median untuk mengukurnya. Spread :...
Histogram adalah jenis bagan yang memungkinkan kita memvisualisasikan distribusi nilai dalam sekumpulan data. Sumbu X menunjukkan nilai kumpulan data dan sumbu Y menunjukkan frekuensi setiap nilai. Bergantung pada nilai kumpulan data, histogram dapat memiliki berbagai bentuk. Contoh berikut menunjukkan cara mendeskripsikan...
Outlier adalah observasi yang jaraknya sangat jauh dari nilai lain dalam kumpulan data. Kita sering mendefinisikan suatu observasi sebagai outlier jika observasi tersebut 1,5 kali rentang antarkuartil di atas kuartil ketiga atau 1,5 kali rentang antarkuartil di bawah kuartil pertama. Catatan:...
Interval kepercayaan adalah rentang nilai yang kemungkinan memuat parameter populasi dengan tingkat kepercayaan tertentu. Saat kami melaporkan interval kepercayaan, kami selalu menggunakan format berikut: 95% CI [LL, UL] Emas LL : Batas bawah selang kepercayaan UL : Batas atas selang kepercayaan...
Pesan peringatan yang mungkin Anda temui di R adalah: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Peringatan ini terjadi ketika Anda menyesuaikan model regresi logistik dan prediksi probabilitas dari satu atau lebih observasi di database Anda tidak dapat...
Seringkali dalam statistik dan pembelajaran mesin kita menormalkan variabel sedemikian rupa sehingga rentang nilainya antara 0 dan 1. Alasan paling umum untuk melakukan normalisasi variabel adalah ketika kita melakukan beberapa jenis analisis multivariat (yaitu kita ingin memahami hubungan antara beberapa variabel...
ANOVA (“analisis varians”) digunakan untuk menentukan apakah rata-rata dari tiga atau lebih kelompok independen adalah sama atau tidak. ANOVA menggunakan hipotesis nol dan hipotesis alternatif berikut: H 0 : Semua mean grup adalah sama. H A : Setidaknya rata-rata satu kelompok...
Jarak Manhattan antara dua vektor, A dan B , dihitung sebagai berikut: Σ|A saya – B saya | dimana i adalah elemen ke- i dari setiap vektor. Jarak ini digunakan untuk mengukur ketidaksamaan antara dua vektor dan biasanya digunakan di banyak...
Deviasi standar gabungan hanyalah rata-rata tertimbang dari deviasi standar dua atau lebih kelompok independen. Dalam statistik, hal ini paling sering muncul dalam uji-t dua sampel , yang digunakan untuk menguji apakah rata-rata dua populasi sama atau tidak. Rumus untuk menghitung simpangan...
Anda dapat menggunakan sintaks dasar berikut untuk menggabungkan dua bingkai data di R berdasarkan beberapa kolom: merge(df1, df2, by. x =c(' col1 ', ' col2 '), by. y =c(' col1 ', ' col2 ')) Contoh berikut menunjukkan cara menggunakan sintaksis ini...