Apa yang dianggap sebagai data mentah? (definisi & contoh)
Dalam statistik, data mentah mengacu pada data yang dikumpulkan langsung dari sumber primer dan belum diproses dengan cara apa pun.
Dalam semua jenis proyek analisis data, langkah pertama adalah mengumpulkan data mentah. Setelah data dikumpulkan, data tersebut kemudian dapat dibersihkan, diubah, diringkas, dan divisualisasikan.
Keuntungan mengumpulkan data mentah adalah pada akhirnya dapat menggunakannya untuk lebih memahami fenomena tertentu atau menggunakannya untuk membangun sejenis model prediktif.
Contoh berikut mengilustrasikan bagaimana data mentah dapat dikumpulkan dan digunakan dalam kehidupan nyata.
Contoh: pengumpulan dan penggunaan data mentah
Olahraga adalah bidang di mana data mentah sering dikumpulkan. Misalnya, data mentah dapat dikumpulkan untuk berbagai statistik mengenai pemain bola basket profesional.
Langkah 1: Kumpulkan data mentah
Bayangkan seorang pramuka bola basket mengumpulkan data mentah berikut untuk 10 pemain di tim bola basket profesional:
Dataset ini merupakan data mentah yang dikumpulkan langsung oleh pramuka dan belum dibersihkan atau diproses dengan cara apapun.
Langkah 2: Bersihkan data mentah
Sebelum menggunakan data ini untuk membuat tabel ringkasan, grafik, atau apa pun, pramuka harus terlebih dahulu menghapus semua nilai yang hilang dan membersihkan semua nilai data yang “kotor”.
Misalnya, kita mungkin melihat beberapa nilai dalam kumpulan data yang perlu diubah atau dihapus:
Pramuka mungkin memutuskan untuk menghapus baris terakhir seluruhnya karena ada beberapa nilai yang hilang. Kemudian dapat membersihkan nilai karakter dalam kumpulan data untuk mendapatkan data “bersih” berikut:
Langkah 3: Ringkas datanya
Setelah data dibersihkan, pramuka kemudian dapat merangkum setiap variabel dalam kumpulan data. Misalnya, ia dapat menghitung ringkasan statistik berikut untuk variabel “Menit”:
- Rata-rata : 24 menit
- Median : 22 menit
- Standar deviasi : 9,45 menit
Langkah 4: Visualisasikan datanya
Pramuka kemudian dapat memvisualisasikan variabel dalam kumpulan data untuk lebih memahami nilai data.
Misalnya, dia dapat membuat diagram batang berikut untuk memvisualisasikan total menit bermain setiap pemain:
Atau dia dapat membuat diagram sebar berikut untuk memvisualisasikan hubungan antara menit bermain dan poin yang dicetak:
Masing-masing jenis bagan ini dapat membantunya memahami data dengan lebih baik.
Langkah 5: Gunakan data untuk membangun model
Terakhir, setelah data dibersihkan, pramuka dapat memutuskan untuk mengadaptasi beberapa jenis model prediktif.
Misalnya, ia dapat menyesuaikan model regresi linier sederhana dan menggunakan menit bermain untuk memprediksi total poin yang dicetak oleh setiap pemain.
Persamaan regresi yang dipasang adalah:
Poin = 8,7012 + 0,2717*(menit)
Pramuka kemudian dapat menggunakan persamaan ini untuk memprediksi jumlah poin yang akan dicetak pemain berdasarkan jumlah menit bermain. Misalnya, seorang atlet yang bermain 30 menit harus memperoleh 16,85 poin:
Poin = 8,7012 + 0,2717*(30) = 16,85
Sumber daya tambahan
Mengapa statistik penting?
Mengapa ukuran sampel penting dalam statistik?
Apa yang dimaksud dengan observasi dalam statistik?
Apa yang dimaksud dengan data tabular dalam statistik?