Apa yang dianggap sebagai data mentah? (definisi & contoh)


Dalam statistik, data mentah mengacu pada data yang dikumpulkan langsung dari sumber primer dan belum diproses dengan cara apa pun.

Dalam semua jenis proyek analisis data, langkah pertama adalah mengumpulkan data mentah. Setelah data dikumpulkan, data tersebut kemudian dapat dibersihkan, diubah, diringkas, dan divisualisasikan.

Keuntungan mengumpulkan data mentah adalah pada akhirnya dapat menggunakannya untuk lebih memahami fenomena tertentu atau menggunakannya untuk membangun sejenis model prediktif.

Contoh berikut mengilustrasikan bagaimana data mentah dapat dikumpulkan dan digunakan dalam kehidupan nyata.

Contoh: pengumpulan dan penggunaan data mentah

Olahraga adalah bidang di mana data mentah sering dikumpulkan. Misalnya, data mentah dapat dikumpulkan untuk berbagai statistik mengenai pemain bola basket profesional.

Langkah 1: Kumpulkan data mentah

Bayangkan seorang pramuka bola basket mengumpulkan data mentah berikut untuk 10 pemain di tim bola basket profesional:

Dataset ini merupakan data mentah yang dikumpulkan langsung oleh pramuka dan belum dibersihkan atau diproses dengan cara apapun.

Langkah 2: Bersihkan data mentah

Sebelum menggunakan data ini untuk membuat tabel ringkasan, grafik, atau apa pun, pramuka harus terlebih dahulu menghapus semua nilai yang hilang dan membersihkan semua nilai data yang “kotor”.

Misalnya, kita mungkin melihat beberapa nilai dalam kumpulan data yang perlu diubah atau dihapus:

Pramuka mungkin memutuskan untuk menghapus baris terakhir seluruhnya karena ada beberapa nilai yang hilang. Kemudian dapat membersihkan nilai karakter dalam kumpulan data untuk mendapatkan data “bersih” berikut:

Langkah 3: Ringkas datanya

Setelah data dibersihkan, pramuka kemudian dapat merangkum setiap variabel dalam kumpulan data. Misalnya, ia dapat menghitung ringkasan statistik berikut untuk variabel “Menit”:

  • Rata-rata : 24 menit
  • Median : 22 menit
  • Standar deviasi : 9,45 menit

Langkah 4: Visualisasikan datanya

Pramuka kemudian dapat memvisualisasikan variabel dalam kumpulan data untuk lebih memahami nilai data.

Misalnya, dia dapat membuat diagram batang berikut untuk memvisualisasikan total menit bermain setiap pemain:

Atau dia dapat membuat diagram sebar berikut untuk memvisualisasikan hubungan antara menit bermain dan poin yang dicetak:

Masing-masing jenis bagan ini dapat membantunya memahami data dengan lebih baik.

Langkah 5: Gunakan data untuk membangun model

Terakhir, setelah data dibersihkan, pramuka dapat memutuskan untuk mengadaptasi beberapa jenis model prediktif.

Misalnya, ia dapat menyesuaikan model regresi linier sederhana dan menggunakan menit bermain untuk memprediksi total poin yang dicetak oleh setiap pemain.

Persamaan regresi yang dipasang adalah:

Poin = 8,7012 + 0,2717*(menit)

Pramuka kemudian dapat menggunakan persamaan ini untuk memprediksi jumlah poin yang akan dicetak pemain berdasarkan jumlah menit bermain. Misalnya, seorang atlet yang bermain 30 menit harus memperoleh 16,85 poin:

Poin = 8,7012 + 0,2717*(30) = 16,85

Sumber daya tambahan

Mengapa statistik penting?
Mengapa ukuran sampel penting dalam statistik?
Apa yang dimaksud dengan observasi dalam statistik?
Apa yang dimaksud dengan data tabular dalam statistik?

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *