Skip to main content

Sekilas tentang Web Mining (Penambangan Web) - Seri Text Mining dan Web Mining (6)

World Wide Web atau singkatnya Web saja  memiliki tempat penyimpanan data dan informasi yang sangat besar sekali yang bisa dibayangkan oleh seseorang  tentang segala hal secara virtual. Web barangkali adalah tempat penyimpanan data dan teks terbesar di dunia, dan jumlah informasi di web terus menerus tumbuh setiap hari. Banyak sekali informasi menarik bisa ditemukan di dunia online:  homepage siapa di link ke halaman-halaman lain mana, berapa banyak orang memiliki link ke halaman web tertentu, dan bagaimana situs tertentu diorganisir. Selain itu, setiap pengunjung yang datang ke web, setiap pencarian pada search engine, setiap klik pada suatu link, dan setiap transaksi pada situs e-commerce selalu menciptakan data baru. Meskipun data teks yang tak-terstruktur di web dikodekan dalam bentuk HTML atau XML merupakan konten web yang paling dominan, tetapi infrastruktur web juga berisi informasi tentang hyperlink (koneksi-koneksi ke berbagai halaman web lain) dan informasi tentang penggunaan web (log tentang interaksi pengunjung dengan situs), semuanya memberikan kekayaan data yang bisa membawa ke suatu penemuan pengetahuan (knowledge discovery). Analisa dari informasi ini bisa membantu kita untuk memperbaiki penggunaan situs dan juga membantu kita untuk meningkatkan hubungan dan nilai untuk para pengunjung pada situs kita.

Namun begitu, menurut Han dan Kamber (pakar data mining), web juga memberikan tantangan besar untuk penemuan pengetahuan yang efisien dan efektif:
  • Web terlalu besar untuk melakukan data mining yang efektif. Web sangat besar dan tumbuh dengan sangat cepat sehingga sangat sulit bahkan untuk sekedar diukur. Karena ukuran size nya yang unik, maka tidak lah layak untuk membuat data warehouse untuk me-replikasi,menyimpan, dan mengintegrasikan semua data yang ada di web, yang akhirnya membuat pengumpulan dan integrasi data menjadi suatu tantangan tersendiri.
  • Web sangatlah kompleks. Kompleksitas halaman web jauh lebih besar disbanding dengan suatu halaman dalam koleksi dokumen teks tradisional. Halaman-halaman web kurang terpadu strukturnya. Halaman-halaman web mengandung gaya penulisian  dan variasi konten yang jauh lebih banyak disbanding dengan buku, artikel atau dokumen teks tradisional lainnya.
  • Web terlalu dinamis. Web adalah sumber informasi yang sangat dinamis. Tidak hanya tumbuh dengan cepat, tetapi kontennya juga terus di-update secara konstan. Blog, artikel berita, pasar saham, laporan cuaca, skor olah raga, harga, iklan-iklan perusahaan, dan banyak jenis informasi lainnya di-update secara regular di web.
  • Web tidaklah spesifik pada suatu domain tertentu. Web menyajikan keragaman komunitas yang sangat luas dan menghubungkan miliaran computer. Para pengguna web memiliki latar belakang yang berbeda-beda, minat yang berbeda, dan tujuan penggunaan web yang berbeda. Kebanyakan pengguna mungkin tidak memiliki mengetahuan yang baik mengenai struktur jaringan informasi  dan mugngkin tidak sadar tentang biaya besar dalam pencarian tertentu yang mereka lakukan.
  • Web memiliki segalanya. Hanya sebagian kecil informasi di web yang benar-benar relevan atau bermanfaat bagi seseorang (atau untuk suatu tugas). Menurut laporan bahwa 99 persen informasi di web sama sekali tidak berguna bagi 99 persen pengguna web. Meskipun hal ini kelihatannya kurang jelas, memanng benar bahwa orang tertentu pada umumnya tertarik hanya pada sebagian kecil saja dari web, sedangkan sisanya di web berisi informasi yang tidak menarik bagi pengguna tersebut dan mungkin membanjiri hasil-hasil yang diinginkan. Menemukan porsi web yang benar-benar relevan terhadap seseorang dan tugas yang sedang dilakukan adalah isu yang sedang menonjol dalam riset yang terkait web.
Berbagai tantangan ini telah mendorong banyak usaha riset untuk meningkatkan ke-efektif-an dan efisiensi untuk menyingkap dan menggunakan asset-aset data di web. Berbagai mesin pencari web berbasis –index secara konstan terus mencari wend an meng-index halaman-halaman web dengan kata kunci tertentu. Dengan menggunakan mesin pencari, seorang pengguna yang berpengalaman bisa mencari dokumen dengan memasukkan kata-kata kunci atau frasa dengan berbagai konstrain yang padat dan tepat. Namun demikian, mesin pencari yang berbasis kata kunci sederhana masih memiliki berbagai kekurangan. Pertama, suatu topik yang sangat luas bisa berisi ratusan atau ribuan dokumen. Hal ini bisa mengakibatkan banyak sekali entri dokumen yang dihasilkan oleh mesin pencari, dimana sebagian besar tidak akan relevan dengan topic yang diinginkan. Kedua, banyak dokumen yang sangat relevan dengan suatu topik yang mungkin tidak berisi kata kunci yang tepat yang bisa membatasi pencarian. Dibandingkan dengan dengan pencarian web berbasis kata kunci, web mining (penambangan web) merupakan pendekatan yang menonjol (dan lebih menantang) yang bisa digunakan untuk meningkatkan secara substansial kemampuan mesin pencari web karena web mining bisa mengidentifikasi halaman-halaman web yang authoritative, mengklasifikasikan dokumen web, dan menyelesaikan berbagai ambiguitas dan seluk beluk lembut yang yang ada di search engine web berbasis kata kunci.

Web mining (atau data mining web) adalah proses menemukan hubungan intrinsic (misalkan, informasi yang menarik dan bermanfaat) dari data web, yang disajikan dalam bentuk teks, link, atau informasi penggunaan. Istilah web mining pertama kali digunakaan oleh Etzioni pada tahun 1996 (pakar data mining); saat ini, banyak konferensi, jurnal, dan buku berfokus pada data mining web. Ini memang area teknologi dan praktik bisnis yang berevolusi secara kontinyu. Gambar di bawah ini adalah tiga area utama web mining: konten web, struktur web, dan penggunaan web.

Daftar link terkait seri text mining dan web mining:
  1. Konsep dan Definisi Text Mining
  2. Pemrosesan Bahasa Alami (Natural Language Processing)
  3. Penerapan-penerapan Text Mining
  4. Proses dalam Text Mining
  5. Berbagai Software Text Mining
  6. Sekilas tentang Web Mining (Penambangan Web)
  7. Penambangan Konten Web dan Struktur Web
  8. Penambangan Penggunaan Web (Web Usage Mining)
  9. Kisah Sukses Web Mining

Comments

Popular posts from this blog

Pengertian Binding dalam Bahasa Pemrograman dan Kapan Terjadinya

Binding dimaksudkan sebagai pengikatan (association) antara suatu entity dengan atributnya, misalnya binding/pengikatan antara suatu variable dengan tipe datanya atau dengan nilainya, atau dapat juga antara suatu operasi dengan simbol, misalnya simbol + dikenali sebagai operasi penjumlahan atau simbol ^ dikenali sebagai operasi pangkat, dll.  Peristiwa binding dan kapan terjadinya binding (biasanya disebut dengan binding time ) berperan penting dalam membicarakan semantics suatu bahasa pemrograman. Beberapa kemungkinan binding time adalah:

Latihan Soal Jawab Matematika Diskrit

Berikut di bawah ini adalah latihan soal jawab untuk matematika diskrit dengan topik-topik: Pernyataan Logika Circuits dan Ekspresi Boolean Argumen (valid/tidak valid) Teori Himpunan Permutasi Fungsi --o0o-- Pernyataan Logika 1. Buatlah tabel kebenaran untuk menentukan yang mana tautology dan yang mana contradiction dalam pernyataan logika (a) dan (b) di bawah ini: a. (p ∧ q) ∨ (∼p ∨ (p ∧ ∼q)) b.  (p ∧ ∼q) ∧ (∼p ∨ q)

Contoh proses normalisasi relasi dari UNF – 1NF – 2NF – dan 3NF

Dalam posting tulisan tentang: “Tujuan dan Manfaat Normalisasi dalam Perancangan Database” , kita sudah mempelajari tentang: “Apa itu normalisasi” dan “Mengapa kita perlu melakukan normalisasi”. Kedua pertanyaan itu sudah terjawab dalam tulisan tersebut.  Kemudian dalam posting tulisan tentang: “Konsep Ketergantungan Fungsional, Normalisasi, dan Identifikasi Primary Key dalam Perancangan Sistem Database” , kita sudah mempelajari suatu konsep penting yang digunakan untuk melakukan normalisasi, yaitu konsep ketergantungan fungsional yang terdiri dari ketergantungan penuh, ketergantungan parsial atau sebagian, dan ketergantungan transitif. Proses normalisasi pertama-tama dilakukan dengan mengidentifikasi adanya ketergantungan-ketergantungan tersebut dalam relasi-relasi dan kemudian menghilangkannya. Cara melakukan normalisasi, mengidentifikasi berbagai macam ketergantungan, dan menghilangkan ketergantungan pada relasi-relasi bisa dipelajari ulang dalam postingan tulisan d...