Skip to main content

Penambangan Data: Langkah 13 Dalam Siklus Hidup Proyek Pengembangan BI

Tahap 5: Pengembangan

Langkah 13: Penambangan Data (Data Mining)

Aktivitas-aktivitas Penambangan Data (Data Mining)

Berbagai aktivitas dalam penambangan data
Aktivitas-aktivitas untuk penambangan data (data mining) tidak harus dilakukan secara linear. Gambar di samping menunjukkan aktivitas mana saja yang dapat dilakukan secara bersamaan. Berikut di bawah ini adalah daftar yang secara ringkas menjelaskan aktivitas yang berhubungan dengan Langkah 13, yaitu Penambangan Data (Data Mining). [Baca juga:Proses dalam Data Mining]

1. Buat statement untuk masalah bisnis.

Tetapkan tujuan sebelum memulai upaya data mining, dan prioritaskan tujuan (seperti meningkatkan keuntungan, mengurangi biaya, menciptakan strategi produk yang inovatif, atau memperluas pangsa pasar). Waktu dan uang harus diinvestasikan untuk mencapai salah satu tujuan tersebut. Perlu juga ada komitmen dari manajemen untuk menerapkan solusi penambangan data (data mining) di organisasi. [Baca juga: Cara Kerja Data Mining]

2. Kumpulkan data.

Salah satu aktivitas yang paling memakan waktu dari penambangan data (data mining) adalah pengumpulan berbagai jenis dan jumlah data yang sesuai. Dalam rangka penyajian yang benar, pertama identifikasilah semua data yang diperlukan untuk analisis. Ini termasuk data yang tersimpan dalam database operasional, data dari database BI, dan data eksternal apapun yang akan dipertimbangkan. Setelah Anda mengidentifikasi sumber data, ekstraklah semua elemen data yang bersangkutan dari berbagai sumber data internal dan eksternal.

3. Konsolidasikan dan bersihkan data.

Menyimpan data secara redundant dianggap lebih dari sekedar norma (kebiasaan) daripada suatu kesalahan di kebanyakan organisasi. Oleh karena itu, data dari berbagai sumber harus dikonsolidasikan dan dibersihkan. Jika data internal harus dilengkapi dengan data eksternal yang diperoleh, cocokkan data eksternal dengan data internal, dan tentukan konten yang benar.

4. Siapkan data.

Sebelum membuat suatu model data analitik, Anda perlu menyiapkan data. Bagian dari persiapan data adalah klasifikasi berbagai variabel. Variabel-variabel tersebut bisa berupa variabel diskrit atau kontinu, kualitatif atau kuantitatif. Hilangkan variabel-variabel yang memiliki nilai-nilai yang hilang atau menggantinya dengan nilai default atau nilai yang paling mungkin terjadi. Ini memberikan insight besar untuk mengetahui maksimum, minimum, rata-rata, median, dan nilai-nilai modus untuk variabel kuantitatif. Dalam rangka untuk merampingkan proses persiapan, pertimbangkan untuk menerapkan transformasi untuk reduksi data. Tujuan dari reduksi data adalah untuk menggabungkan beberapa variabel menjadi satu untuk tetap mempertahankan jumlah data yang mampu untuk dikelola dan bisa untuk analisis. Misalnya, menggabungkan tingkat pendidikan, pendapatan, status perkawinan, dan kode pos menjadi salah satu variabel profil.

5. Membangun model data analitik.

Salah satu aktivitas yang paling penting dari penambangan data (data mining) adalah membuat model data analitik. Suatu model data analitik menyajikankan struktur data yang terkonsolidasi, terintegrasi, dan time-dependent yang dipilih dan dan diterapkan pemrosesan awal dari berbagai sumber data internal dan eksternal. Setelah diimplementasikan, model ini harus dapat terus "belajar" sementara itu berulang kali digunakan oleh tool data mining dan di-tune oleh ahli data mining. [Baca juga: Metode-metode Dalam Data Mining]

6. Menafsirkan hasil data mining.

Setelah operasi data mining dijalankan dan hasilnya diketahui, tugas utama berikutnya adalah menginterpretasikan hasil tersebut. Hal-hal penting untuk dipertimbangkan selama penafsiran ini adalah bagaimana hasilnya bisa mudah ditindaklanjuti dan apakah hasilnya dapat disajikan kepada eksekutif bisnis dalam cara yang meyakinkan, dan berorientasi bisnis.

7. Lakukan validasi eksternal dari hasil-hasil penambangan data.

Bandingkan hasil Anda dengan statistik industri yang sudah di-publish. Identifikasilah penyimpangan/perbedaan dari statistik tersebut dan tentukan berbagai argumen/alasan untuk penyimpangan/perbedaan. Pastikan Anda menggunakan statistik industri yang terbaru karena statistik itu selalu berubah dari waktu ke waktu. Bandingkan kriteria seleksi data Anda dengan data yang dari statistik industri, dan bandingkan kerangka waktu selama data Anda dipilih untuk jangka waktu yang sama yang dicakup oleh statistik industri. Kriteria seleksi dan kerangka waktu model Anda dan statistik industri harus memiliki kriteria yang sama.

8. Monitor-lah model analisik data dari waktu ke waktu.

Statistik industri biasanya dibuat dengan menggunakan sampel yang sangat besar. Hal ini penting untuk memvalidasi model data analisis Anda terhadap statistik industri secara berkala. Statistik industri berubah dari waktu ke waktu, dan beberapa industri memiliki perubahan musim. Dalam hal ini, sesuaikan model analitik internal Anda.

Seri Siklus Hidup Proyek Pengembangan BI (Business Intelligence):

Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)