Penambangan Konten Web dan Struktur Web - Seri Text Mining dan Web Mining (7)

Penambangan Konten Web (web content mining) mengacu ke suatu ekstraksi informasi yang memberi manfaat dari berbagai halaman web. Dokumen bisa diekstrak dalam suatu format yang bisa dibaca oleh mesin sehingga teknik-teknik yang ter-otomatisasi bisa menghasilkan suatu informasi tentang halaman-halaman web tersebut. Web crawler digunakan untuk membaca melalui konten suatu web secara otomatis. Informasi yang dikumpulkan mungkin memasukkan karakteristik dokumen yang mirip dengan apa yang digunakan dalam text mining,  tetapi mungkin memasukkan konsep tambahan, seperti hirarki dokumen.

Penambangan konten web (web content mining) juga bisa digunakan untuk meningkatkan hasil yang dibuat oleh mesin pencari (search engine). Contohnya, Turetken dan Sharda (pakar data mining), menjelaskan suatu sistem visualisasi yang mengambil hasil suatu pencarian dari search engine seperti Google, membaca 100 dokumen teratas, meng-cluster dokumen-dokumen tersebut dengan memprosesnya dengan menggunakan IBM’s Intelligent Text Miner, dan kemudian menyajikan hasilnya dalam format grafis. [Baca juga: Analisa Cluster]

Selain teks, halaman web juga berisi hyperlink yang yang menunjuk ke halaman yang lain. Hyperlink berisi sejumlah anotasi tersembunyi yang sangat penting yang bisa memiliki potensi untuk membantu secara otomatis menyimpulkan gagasan dari halaman sumber. Ketika developer web memasukkan suatu link yang menunjuk ke halaman web yang lain, ini bisa dianggap sebagai dukungan/pengabsahan si developer terhadap halaman lain tersebut. Dukungan kolektif dari suatu halaman web yang diberikan oleh developer yang berbeda pada web mengindikasikan tingkat pentingnya suatu web dan mungkin secara alami membawa penemuan halaman-halaman web authoritative. Karena itu, jumlah massif dari informasi tentang keterkaitan web memberikan koleksi informasi yang kaya mengenai suatu relevansi, kualitas, dan struktur isi web, dan itu berarti sumber yang kaya untuk penambangan web (web mining).

Pencarian di web untuk mendapatkan informasi tentang topik tertentu biasanya menghasilkan sedikit sekali halaman web yang berkualitas, relevan, dan banyak sekali halaman web yang tak berguna. Penggunaan indeks berbasis halaman-halaman yang authoritative akan meningkatkan hasil pencarian dan ranking halaman yang relevan. Gagasan tentang authority (atau halaman authoritative) berasal dari pencarian informasi di masa sebelumnya dengan menggunakan  kutipan (citations) diantara artikel-artikel jurnal yang digunakan untuk mengevaluasi  dampak paper penelitian. Meskipun itu adalah asal mula gagasannya, tetapi ada perbedaan penting antara kutipan (citations) dalam artikel penelitian dan hyperlink pada halaman web. Pertama, tidak semua hyperlink menyajikan dukungan/pengabsahan terhadap suatu halaman (beberapa link dibuat untuk tujuan navigasi dan beberapa adalah iklan berbayar).  Tetapi memang benar, jika kebanyakan hyperlinks adalah bentuk dukungan/pengabsahan, maka opini kolektif tersebut akan tetap berlaku. Kedua, demi kepentingan komersial dan kompetitif, satu authority akan jarang sekali memiliki halaman web yang mengarah ke authoritative dari rival atau kompetitor  dalam domain/bidang yang sama. Contohnya, Microsoft mungkin akan lebih memilih tidak memasukkan link-link pada halaman web nya ke situs milik Apple, karena ini mungkin akan dianggap sebagai dukungan/pengabsahan dari halaman authority kompetitor. Ketiga, halaman-halaman authoritative seringkali tidak deskriptif secara khusus. Contohnya, halaman utaman Yahoo! Mungkin tidak berisi deskripsi yang eksplisit bahwa kenyataannya itu adalah mesin pencari web.

Struktur dari hyperlink web telah membawa dampak bagi suatu kategori lain dari halaman-halaman web yang disebut dengan ‘hub’. 'Hub' adalah satu atau beberapa halaman web yang menyuguhkan sekumpulan link ke halaman-halaman authoritative. Halaman-halaman ‘hub’ mungkin saja bukan halaman yang popular dan hanya sedikit link yang merujuk kepadanya; namun demikian, mereka menyuguhkan link-link ke kumpulan situs-situs yang popular pada topik tertentu yang diminati. 'Hub' bisa juga menjadi suatu daftar link-link yang direkomendasikan pada suatu homepage individu, situs referensi yang sudah terekomendasi pada suatu halaman web, atau suatu daftar sumber rujukan yang sudah disatukan secara professional mengenai suatu topik tertentu. Halaman-halaman hub memainkan peranan secara implisit untuk memberikan authority pada bidang yang sempit. Pada dasarnya, suatu hubungan simbiosis yang erat ada diantara 'hub-hub' yang bagus dan halaman-halaman authoritative; 'hub' yang bagus adalah bagus karena merujuk ke banyak authority yang bagus, dan 'authority' yang bagus adalah bagus karena sedang dirujuk oleh banyak 'hub'. Hubungan yang seperti itu antara 'hub' dan 'authority' memungkin untuk secara otomatis mencari konten yang berkualitas bagus di web.

Algoritma yang paling popular untuk menghitung halaman-halaman 'hub' dan 'authority' adalah hyperlink-induced topic search (HITS).  Algoritma ini pertama kali dikembangkan oleh Kleinberg dan sudah ditingkatkan kemampuannya oleh banyak peneliti. HITS adalah algoritma yang manganalisa link yang memberi skor halaman-halaman web dengan menggunakan informasi hyperlink yang ada di dalamnya. Dalam konteks pencarian web, algoritma HITS mengumpulkan sekumpulan dokumen basis  yang akan menjadi dasar untuk query tertentu. Kemudian dia akan menghitung secara rekursif nilai-nilai 'hub' dan 'authority' untuk setiap dokumen. Untuk mengumpulkan dokumen basis, sekumpulan sumber (root) yang cocok dengan query diambil dari mesin pencari. Untuk setiap dokumen yang diambil, himpunan/kumpulan dokumen yang merujuk ke dokumen asli/awal dan himpunan/kumpulan dokumen yang lain yang ditunjuk oleh dokumen awal/asli ditambahkan ke kumpulan/himpunan tadi dan dianggap sebagai tetangga/berdekatan dengan dokumen awal/asli. Proses rekursif identifikasi dokumen dan analisa link terus berlanjut hingga nilai-nilai 'hub' dan 'authority' menuju konvergensi (menyatu). Nilai-nilai tersebut kemudian digunakan untuk mengindex dan mem-prioritaskan kumpulan dokumen yang dihasilkan untuk query tertentu.

Penambangan struktur web (web structure mining) adalah proses meng-ekstrak informasi yang berguna dari link-link yang ada di dalam dokumen web. Proses ini digunakan untuk mengidentifikasi halaman-halaman 'authoritative' dan 'hub', yang merupakan batu penjuru dari algoritma-algoritma ‘page-rank’ modern yang merupakan sentral dari mesin pencari popular seperti Google dan Yahoo! Karena link-link menuju ke halaman web bisa jadi menunjukkan popularitas situs (atau authority), link-link di dalam halaman web (atau situs web yang bersaing) mungkin saja menunjukkan kedalaman cakupan topik tertentu. Analisa terhadap link-link merupakan sesuatu yang sangat penting dalam memahami keterkaitan diantara jumlah halaman web yang sangat besar ini, yang akhirnya membawa ke pemahaman yang lebih baik dari suatu komunitas, klan, atau kelompok  web tertentu.

Daftar link terkait seri text mining dan web mining:
  1. Konsep dan Definisi Text Mining
  2. Pemrosesan Bahasa Alami (Natural Language Processing)
  3. Penerapan-penerapan Text Mining
  4. Proses dalam Text Mining
  5. Berbagai Software Text Mining
  6. Sekilas tentang Web Mining (Penambangan Web)
  7. Penambangan Konten Web dan Struktur Web
  8. Penambangan Penggunaan Web (Web Usage Mining)
  9. Kisah Sukses Web Mining

No comments:

Post a Comment