Bagaimana melakukan analisis data eksplorasi di excel


Salah satu langkah pertama dalam setiap proyek analisis data adalah analisis data eksplorasi .

Ini melibatkan eksplorasi kumpulan data dalam tiga cara:

1. Meringkas sekumpulan data menggunakan statistik deskriptif.

2. Visualisasikan sekumpulan data menggunakan grafik.

3. Identifikasi nilai-nilai yang hilang.

Dengan melakukan ketiga tindakan ini, Anda dapat memahami bagaimana nilai-nilai dalam kumpulan data didistribusikan dan mendeteksi nilai-nilai yang bermasalah sebelum melanjutkan dengan pengujian hipotesis , menyesuaikan model regresi , atau melakukan pemodelan statistik.

Contoh langkah demi langkah berikut ini memperlihatkan cara melakukan analisis data eksplorasi di Excel.

Langkah 1: Buat kumpulan data

Pertama, mari kita buat kumpulan data sederhana yang berisi informasi tentang 10 pemain bola basket berbeda:

Kumpulan data ini berisi tiga variabel (poin, rebound, assist) dan beberapa variabel memiliki nilai kosong atau NA, yang umum terjadi pada kumpulan data dunia nyata.

Langkah 2: Ringkas datanya

Selanjutnya, kita dapat menghitung nilai mean, median, kuartil, minimum, dan maksimum untuk masing-masing ketiga variabel dalam dataset ini:

Berikut rumus yang kami gunakan untuk setiap sel di kolom B:

  • B13 : =RATA-RATA( B2:B11 )
  • B14 : =MEDIAN( B2:B11 )
  • B15 : =KUARTILE( B2:B11 , 1)
  • B16 : =KUARTILE( B2:B11 , 3)
  • B17 : =MENIT( B2:B11 )
  • B18 : =maks( B2:B11 )

Kami kemudian menyeret setiap rumus ke kanan sehingga kami dapat menghitung metrik yang sama untuk nilai di kolom C dan D.

Dengan menghitung statistik deskriptif untuk setiap variabel, kita dapat memperoleh pemahaman yang baik tentang distribusi nilai untuk setiap variabel.

Catatan : Setiap rumus secara otomatis mengabaikan nilai kosong atau NA saat menghitung setiap statistik deskriptif.

Langkah 3: Visualisasikan datanya

Kita juga dapat membuat grafik untuk memvisualisasikan nilai dari dataset.

Misalnya, untuk memvisualisasikan sebaran nilai variabel Poin, kita dapat menyorot nilai pada rentang sel B2:B11 , lalu klik tab Sisipkan di sepanjang pita atas, lalu klik ikon Histogram di grup Grafik :

Histogram berikut akan dibuat secara otomatis:

Histogram ini memungkinkan Anda memvisualisasikan distribusi poin yang dicetak oleh para pemain.

Misalnya, kita dapat melihat:

  • 4 pemain mencetak antara 10 dan 15 poin.
  • 1 pemain mencetak antara 15 dan 20 poin.
  • 2 pemain mencetak antara 20 dan 25 poin.
  • 3 pemain mencetak antara 25 dan 30 poin.

Kita dapat mengulangi proses ini untuk setiap variabel dalam kumpulan data kita untuk memvisualisasikan distribusi nilai untuk setiap variabel.

Langkah 4: Identifikasi nilai-nilai yang hilang

Kita juga bisa menggunakan rumus berikut untuk menghitung jumlah nilai yang hilang di kolom B:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Kita bisa mengetikkan rumus ini di sel B19 , lalu menyeretnya ke kanan untuk menghitung jumlah nilai yang hilang untuk setiap variabel dalam kumpulan data:

Dari hasilnya kita dapat melihat:

  • Ada 0 nilai yang hilang di kolom Poin.
  • Ada 2 nilai yang hilang pada kolom Rebound.
  • Ada 1 nilai yang hilang di kolom Bantuan.

Kami sekarang telah menyelesaikan beberapa analisis data eksplorasi dasar pada kumpulan data ini dan telah memperoleh pemahaman yang cukup baik tentang bagaimana nilai didistribusikan untuk setiap variabel dalam kumpulan data ini.

Terkait: Cara Mengganti Sel Kosong dengan Nol di Excel

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di Excel:

Cara Menghitung Rangkuman Lima Angka di Excel
Cara menghitung rata-rata berdasarkan kelompok di Excel
Cara menghitung nilai maksimal per grup di excel

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *