World Wide Web atau singkatnya Web saja memiliki tempat penyimpanan data dan informasi yang sangat besar sekali yang bisa dibayangkan oleh seseorang tentang segala hal secara virtual. Web barangkali adalah tempat penyimpanan data dan teks terbesar di dunia, dan jumlah informasi di web terus menerus tumbuh setiap hari. Banyak sekali informasi menarik bisa ditemukan di dunia online: homepage siapa di link ke halaman-halaman lain mana, berapa banyak orang memiliki link ke halaman web tertentu, dan bagaimana situs tertentu diorganisir. Selain itu, setiap pengunjung yang datang ke web, setiap pencarian pada search engine, setiap klik pada suatu link, dan setiap transaksi pada situs e-commerce selalu menciptakan data baru. Meskipun data teks yang tak-terstruktur di web dikodekan dalam bentuk HTML atau XML merupakan konten web yang paling dominan, tetapi infrastruktur web juga berisi informasi tentang hyperlink (koneksi-koneksi ke berbagai halaman web lain) dan informasi tentang penggunaan web (log tentang interaksi pengunjung dengan situs), semuanya memberikan kekayaan data yang bisa membawa ke suatu penemuan pengetahuan (knowledge discovery). Analisa dari informasi ini bisa membantu kita untuk memperbaiki penggunaan situs dan juga membantu kita untuk meningkatkan hubungan dan nilai untuk para pengunjung pada situs kita.
Namun begitu, menurut Han dan Kamber (pakar data mining), web juga memberikan tantangan besar untuk penemuan pengetahuan yang efisien dan efektif:
- Web terlalu besar untuk melakukan data mining yang efektif. Web sangat besar dan tumbuh dengan sangat cepat sehingga sangat sulit bahkan untuk sekedar diukur. Karena ukuran size nya yang unik, maka tidak lah layak untuk membuat data warehouse untuk me-replikasi,menyimpan, dan mengintegrasikan semua data yang ada di web, yang akhirnya membuat pengumpulan dan integrasi data menjadi suatu tantangan tersendiri.
- Web sangatlah kompleks. Kompleksitas halaman web jauh lebih besar disbanding dengan suatu halaman dalam koleksi dokumen teks tradisional. Halaman-halaman web kurang terpadu strukturnya. Halaman-halaman web mengandung gaya penulisian dan variasi konten yang jauh lebih banyak disbanding dengan buku, artikel atau dokumen teks tradisional lainnya.
- Web terlalu dinamis. Web adalah sumber informasi yang sangat dinamis. Tidak hanya tumbuh dengan cepat, tetapi kontennya juga terus di-update secara konstan. Blog, artikel berita, pasar saham, laporan cuaca, skor olah raga, harga, iklan-iklan perusahaan, dan banyak jenis informasi lainnya di-update secara regular di web.
- Web tidaklah spesifik pada suatu domain tertentu. Web menyajikan keragaman komunitas yang sangat luas dan menghubungkan miliaran computer. Para pengguna web memiliki latar belakang yang berbeda-beda, minat yang berbeda, dan tujuan penggunaan web yang berbeda. Kebanyakan pengguna mungkin tidak memiliki mengetahuan yang baik mengenai struktur jaringan informasi dan mugngkin tidak sadar tentang biaya besar dalam pencarian tertentu yang mereka lakukan.
- Web memiliki segalanya. Hanya sebagian kecil informasi di web yang benar-benar relevan atau bermanfaat bagi seseorang (atau untuk suatu tugas). Menurut laporan bahwa 99 persen informasi di web sama sekali tidak berguna bagi 99 persen pengguna web. Meskipun hal ini kelihatannya kurang jelas, memanng benar bahwa orang tertentu pada umumnya tertarik hanya pada sebagian kecil saja dari web, sedangkan sisanya di web berisi informasi yang tidak menarik bagi pengguna tersebut dan mungkin membanjiri hasil-hasil yang diinginkan. Menemukan porsi web yang benar-benar relevan terhadap seseorang dan tugas yang sedang dilakukan adalah isu yang sedang menonjol dalam riset yang terkait web.
Web mining (atau data mining web) adalah proses menemukan hubungan intrinsic (misalkan, informasi yang menarik dan bermanfaat) dari data web, yang disajikan dalam bentuk teks, link, atau informasi penggunaan. Istilah web mining pertama kali digunakaan oleh Etzioni pada tahun 1996 (pakar data mining); saat ini, banyak konferensi, jurnal, dan buku berfokus pada data mining web. Ini memang area teknologi dan praktik bisnis yang berevolusi secara kontinyu. Gambar di bawah ini adalah tiga area utama web mining: konten web, struktur web, dan penggunaan web.
Daftar link terkait seri text mining dan web mining:
- Konsep dan Definisi Text Mining
- Pemrosesan Bahasa Alami (Natural Language Processing)
- Penerapan-penerapan Text Mining
- Proses dalam Text Mining
- Berbagai Software Text Mining
- Sekilas tentang Web Mining (Penambangan Web)
- Penambangan Konten Web dan Struktur Web
- Penambangan Penggunaan Web (Web Usage Mining)
- Kisah Sukses Web Mining
Comments
Post a Comment