Ketika hubungan antara sekumpulan variabel prediktor dan variabel respon sangat kompleks, kita sering menggunakan metode nonlinier untuk memodelkan hubungan di antara keduanya. Salah satu metode tersebut adalah dengan membangun pohon keputusan . Namun, kelemahan dari penggunaan pohon keputusan tunggal adalah bahwa...
Distribusi sampling adalah distribusi probabilitas suatu statistik tertentu berdasarkan banyak sampel acak dari satu populasi . Tutorial ini menjelaskan cara melakukan hal berikut dengan distribusi sampling di Excel: Hasilkan distribusi pengambilan sampel. Visualisasikan distribusi pengambilan sampel. Hitung mean dan deviasi standar...
Seringkali Anda mungkin ingin memilih sampel acak dari kumpulan data di Excel. Untungnya, hal ini mudah dilakukan dengan menggunakan fungsi RAND() , yang menghasilkan angka acak antara 0 dan 1. Tutorial ini memberikan contoh langkah demi langkah tentang cara menggunakan fungsi...
Bagan lokasi berskala adalah jenis bagan yang menampilkan nilai pas model regresi di sepanjang sumbu x dan akar kuadrat dari residu standar di sepanjang sumbu y. Melihat grafik ini, kami memeriksa dua hal: 1. Pastikan garis merah kira-kira horizontal pada plot....
Interval kepercayaan adalah rentang nilai yang kemungkinan memuat parameter populasi dengan tingkat kepercayaan tertentu. Itu dihitung berdasarkan rumus umum berikut: Interval kepercayaan = (perkiraan titik) +/- (nilai kritis)* (kesalahan standar) Rumus ini membuat interval dengan batas bawah dan batas atas, yang...
R adalah salah satu bahasa pemrograman paling populer untuk bekerja dengan data. Namun sebelum kita dapat bekerja dengan data, kita perlu mengimpornya ke R! Jika data Anda sudah ada dalam file CSV atau Excel, Anda dapat mengikuti langkah-langkah dalam tutorial ini...
Distribusi normal adalah distribusi yang paling umum digunakan dalam semua statistik dan dikenal simetris dan berbentuk lonceng. Distribusi yang berkerabat dekat adalah distribusi t , yang juga simetris dan berbentuk lonceng tetapi mempunyai “ekor” yang lebih berat daripada distribusi normal. Dengan...
Sebagian besar algoritme pembelajaran mesin yang diawasi didasarkan pada penggunaan model prediktif tunggal seperti regresi linier , regresi logistik , regresi ridge , dll. Namun, metode seperti bagging dan random forest membangun banyak model berbeda berdasarkan sampel bootstrap berulang dari kumpulan...
Seringkali dalam statistik kita ingin mengumpulkan data sehingga kita dapat menjawab pertanyaan penelitian tertentu. Misalnya, kita mungkin ingin menjawab pertanyaan berikut: 1. Berapa median pendapatan rumah tangga di Miami, Florida? 2. Berapa rata-rata berat badan penyu pada suatu populasi tertentu? 3....
Terkadang Anda mungkin ingin menghapus kolom indeks dari pandas DataFrame dengan Python. Karena pandas DataFrames dan Series selalu memiliki indeks, Anda tidak dapat benar-benar menghapus indeks tersebut, tetapi Anda dapat mengatur ulang indeks tersebut menggunakan potongan kode berikut: df. reset_index (drop=...