Tahap 5: Pengembangan
Langkah 13: Penambangan Data (Data Mining)
Aktivitas-aktivitas Penambangan Data (Data Mining)
Berbagai aktivitas dalam penambangan data |
Aktivitas-aktivitas untuk penambangan data (data mining) tidak harus dilakukan secara linear. Gambar di samping menunjukkan aktivitas mana saja yang dapat dilakukan secara bersamaan. Berikut di bawah ini adalah daftar yang secara ringkas menjelaskan aktivitas yang berhubungan dengan Langkah 13, yaitu Penambangan Data (Data Mining). [Baca juga:Proses dalam Data Mining]
1. Buat statement untuk masalah bisnis.
Tetapkan tujuan sebelum memulai upaya data mining, dan prioritaskan tujuan (seperti meningkatkan keuntungan, mengurangi biaya, menciptakan strategi produk yang inovatif, atau memperluas pangsa pasar). Waktu dan uang harus diinvestasikan untuk mencapai salah satu tujuan tersebut. Perlu juga ada komitmen dari manajemen untuk menerapkan solusi penambangan data (data mining) di organisasi. [Baca juga: Cara Kerja Data Mining]
2. Kumpulkan data.
Salah satu aktivitas yang paling memakan waktu dari penambangan data (data mining) adalah pengumpulan berbagai jenis dan jumlah data yang sesuai. Dalam rangka penyajian yang benar, pertama identifikasilah semua data yang diperlukan untuk analisis. Ini termasuk data yang tersimpan dalam database operasional, data dari database BI, dan data eksternal apapun yang akan dipertimbangkan. Setelah Anda mengidentifikasi sumber data, ekstraklah semua elemen data yang bersangkutan dari berbagai sumber data internal dan eksternal.
3. Konsolidasikan dan bersihkan data.
Menyimpan data secara redundant dianggap lebih dari sekedar norma (kebiasaan) daripada suatu kesalahan di kebanyakan organisasi. Oleh karena itu, data dari berbagai sumber harus dikonsolidasikan dan dibersihkan. Jika data internal harus dilengkapi dengan data eksternal yang diperoleh, cocokkan data eksternal dengan data internal, dan tentukan konten yang benar.
4. Siapkan data.
Sebelum membuat suatu model data analitik, Anda perlu menyiapkan data. Bagian dari persiapan data adalah klasifikasi berbagai variabel. Variabel-variabel tersebut bisa berupa variabel diskrit atau kontinu, kualitatif atau kuantitatif. Hilangkan variabel-variabel yang memiliki nilai-nilai yang hilang atau menggantinya dengan nilai default atau nilai yang paling mungkin terjadi. Ini memberikan insight besar untuk mengetahui maksimum, minimum, rata-rata, median, dan nilai-nilai modus untuk variabel kuantitatif. Dalam rangka untuk merampingkan proses persiapan, pertimbangkan untuk menerapkan transformasi untuk reduksi data. Tujuan dari reduksi data adalah untuk menggabungkan beberapa variabel menjadi satu untuk tetap mempertahankan jumlah data yang mampu untuk dikelola dan bisa untuk analisis. Misalnya, menggabungkan tingkat pendidikan, pendapatan, status perkawinan, dan kode pos menjadi salah satu variabel profil.
5. Membangun model data analitik.
Salah satu aktivitas yang paling penting dari penambangan data (data mining) adalah membuat model data analitik. Suatu model data analitik menyajikankan struktur data yang terkonsolidasi, terintegrasi, dan time-dependent yang dipilih dan dan diterapkan pemrosesan awal dari berbagai sumber data internal dan eksternal. Setelah diimplementasikan, model ini harus dapat terus "belajar" sementara itu berulang kali digunakan oleh tool data mining dan di-tune oleh ahli data mining. [Baca juga: Metode-metode Dalam Data Mining]
6. Menafsirkan hasil data mining.
Setelah operasi data mining dijalankan dan hasilnya diketahui, tugas utama berikutnya adalah menginterpretasikan hasil tersebut. Hal-hal penting untuk dipertimbangkan selama penafsiran ini adalah bagaimana hasilnya bisa mudah ditindaklanjuti dan apakah hasilnya dapat disajikan kepada eksekutif bisnis dalam cara yang meyakinkan, dan berorientasi bisnis.
7. Lakukan validasi eksternal dari hasil-hasil penambangan data.
Bandingkan hasil Anda dengan statistik industri yang sudah di-publish. Identifikasilah penyimpangan/perbedaan dari statistik tersebut dan tentukan berbagai argumen/alasan untuk penyimpangan/perbedaan. Pastikan Anda menggunakan statistik industri yang terbaru karena statistik itu selalu berubah dari waktu ke waktu. Bandingkan kriteria seleksi data Anda dengan data yang dari statistik industri, dan bandingkan kerangka waktu selama data Anda dipilih untuk jangka waktu yang sama yang dicakup oleh statistik industri. Kriteria seleksi dan kerangka waktu model Anda dan statistik industri harus memiliki kriteria yang sama.
8. Monitor-lah model analisik data dari waktu ke waktu.
Statistik industri biasanya dibuat dengan menggunakan sampel yang sangat besar. Hal ini penting untuk memvalidasi model data analisis Anda terhadap statistik industri secara berkala. Statistik industri berubah dari waktu ke waktu, dan beberapa industri memiliki perubahan musim. Dalam hal ini, sesuaikan model analitik internal Anda.
Seri Siklus Hidup Proyek Pengembangan BI (Business Intelligence):
- Pengantar: Pendekatan Dalam Proses Pengembangan
- Langkah 1 (Tahap 1): Assessment Kasus Bisnis
- Langkah 2 (Tahap 2): Evaluasi Infrastruktur Enterprise
- Langkah 3 (Tahap 2): Perencanakan Proyek
- Langkah 4 (Tahap 3): Mendefinisikan Requirements Proyek
- Langkah 5 (Tahap 3): Analisa Data
- Langkah 6 (Tahap 3): Membuat Prototipe Aplikasi
- Langkah 7 (Tahap 3): Analisa Repositori Meta Data
- Langkah 8 (Tahap 4): Perancangan Database
- Langkah 9 (Tahap 4): Perancangan ETL (Extract-Transform-Load)
- Langkah 10 (Tahap 4): Perancangan Repositori Meta Data
- Langkah 11 (Tahap 5): Pengembangan ETL
- Langkah 12 (Tahap 5): Pengembangan Aplikasi
- Langkah 13 (Tahap 5): Penambangan Data
- Langkah 14 (Tahap 5): Pengembangan Repositori Meta Data
- Langkah 15 (Tahap 6): Implementasi
- Langkah 16 (tahap 6): Evaluasi Rilis
Comments
Post a Comment