Skip to main content

Definisi, Karakteristik, dan Manfaat Data Mining -Seri Data Mining for Business Intelligence (2)

Definisi, karakteristik, dan manfaat

Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari bebatuan atau lumpur diacu sebagai  ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau ‘lumpur’. Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain ‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern searching’, dan ‘data dredging’.

Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya (atau pola-pola) yang berasal dari sekumpulan data yang sangat besar.  Berbagai macam pola tersebut bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi. Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan. Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:
  • Proses: artinya data mining terdiri dari banyak langkah perulangan
  • Rumit: artinya bahwa ada suatu dugaan/kesimpulan atau pencarian yang berbasis eksperimentasi yang dilibatkan; yang artinya bahwa, itu bukanlah suatu hal yang mudah seperti komputasi terhadap suatu kuantitas yang sudah ditetapkan sebelumnya
  • Valid: artinya bahwa pola-pola yang ditemukan seharusnya tetap benar bila diterapkan pada data yang baru dengan tingkat kepastian yang tinggi
  • Baru: artinya bahwa pola-pola tidaklah diketahui sebelumnya oleh pengguna dalam konteks sistem yang sedang dianalisa
  • Berpotensi bermanfaat: artinya adalah bahwa pola-pola yang ditemukan harus membawa manfaat bagi pengguna atau pada pekerjaan
  • Dapat dipahami: artinya bahwa pola harus masuk akal secara bisnis yang membuat pengguna berkata “mmmm! Ini masuk akal; mengapa saya tidak memikirkan hal itu” .
Data mining bukanlah disiplin ilmu baru, tetapi lebih pada definisi yang baru untuk pemanfaatan banyak disiplin ilmu. Data mining diposisikan erat di irisan berbagai disiplin ilmu, termasuk statistik, artificial intelligence (kecerdasan buatan), machine learning, management science, information systems (sistem informasi), dan database. Lihat gambar di bawah ini:

Dengan menggunakan perkembangan di semua disiplin itu, data mining berusaha membuat perkembangan dalam mengekstrak informasi dan knowledge dari database yang besar.  Ini adalah bidang ilmu yang muncul ke permukaan dan menarik banyak perhatian dalam waktu yang singkat.
Berikut adalah karakteristik utama dan tujuan dari data mining:
  • Data seringkali terkubur dalam database yang sangat besar, yang terkadang berisi data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan ke dalam data warehouse.
  • Environment data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem informasi berbasis web.
  • Berbagai tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih, membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes, file-file teks di internet, atau intranet korporat). [Baca juga: Berbagai Tool Software Data Mining]


  • Si penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan  dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat, dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
  • Dalam menemukan pola seringkali menemukan hasil yang tak diharapkan dan  meminta end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk interpretasi terhadap temuan.
  • Banyak tool data mining siap dikombinasikan dengan berbagai  spreadsheet dan tool development software lainnya. Jadi,  data yang ditambang bisa dianalisa dan diterapkan dengan cepat dan mudah. [Baca juga: Berbagai Tool Software Data Mining]
  • Karena jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang perlu menggunakan pemrosesan parallel untuk data mining.
Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan  keunggulan kompetitif strategis. Data mining  menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.

Comments

  1. permisi pak, saya baru saja menulis tentang fungsi autocorrelation untuk penentuan pola data time series apakah musiman, tren, atau stationer, di artikel berikut: http://datacomlink.blogspot.com/2015/12/data-mining-identifikasi-pola-data-time.html yang ingin saya tanyakan, apakah ada teknik lain untuk mencari pola data time series selain fungsi autocorrelation ya pak? terima kasih

    ReplyDelete

Post a Comment

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)