Kisah Sukses Web Mining - Seri Text Mining dan Web Mining (9)

Ask.com adalah salah satu search engine yang terkenal. Ask.com percaya bahwa komponen mendasar dari kesuksesannya terletak pada kemampuannya untuk memberikan secara konsisten hasil pencarian yang lebih baik. Namun, menentukan kualitas hasil pencarian adalah sesuatu yang mustahil  untuk diukur secara akurat dengan menggunakan ukuran-ukuran kuantitatif seperti click-through rate, abandonment (hasil pencarian yang tidak di-klik atau ditindklanjuti), dan frekwensi pencarian; sepertinya diperlukan ukuran-ukuran kuantitatif dan kualitatif tambahan. Dengan men-survey secara regular pengunjungnya, ask.com menggunakan kombinasi ukuran-ukuran kualitatif fan kuantitatif sebagai dasar indikator kinerja, seperti “jumlah persen pengguna yang mengatakan bahwa mereka menemukan apa yang mereka cari”, selain menggunakan survey dengan pertanyaan terbuka untuk mengevaluasi pengalaman pengguna. Dengan menyatukan data kuantitatif dan kualitatif, ask.com bisa memvalidasi perubahannya ke desain 3D mereka, meskipun faktanya bahwa dalam menguji ukuran-ukuran secara murni kuantitatif menunjukkan tidak ada perbedaan dalam hal kinerja antara desain yang lama dan yang baru.

Penambangan Penggunaan Web (Web Usage Mining) - Seri Text Mining dan Web Mining (8)

Penambangan penggunaan web (web usage mining) adalah proses mengekstral informasi yang berasal dari data yang dihasilkan dari kunjungan dan transaksi di halaman-halaman web. Masand (pakar web mining) mengatakan bahwa sedikitnya ada tiga jenis data yang dihasilkan dari kunjungan di web:
  1. Data yang secara otomatis dihasilkan dan disimpan dalam bentuk log akses ke server, log perujuk (link yang merujuk), log tentang agent (browser),  dan cookie di komputer klien
  2. Profile user
  3. Metadata, seperti atribut halaman, atribut konten, dan data penggunaan web. [Baca juga tentang Metadata di dalam data warehouse dan apa isinya]

Penambangan Konten Web dan Struktur Web - Seri Text Mining dan Web Mining (7)

Penambangan Konten Web (web content mining) mengacu ke suatu ekstraksi informasi yang memberi manfaat dari berbagai halaman web. Dokumen bisa diekstrak dalam suatu format yang bisa dibaca oleh mesin sehingga teknik-teknik yang ter-otomatisasi bisa menghasilkan suatu informasi tentang halaman-halaman web tersebut. Web crawler digunakan untuk membaca melalui konten suatu web secara otomatis. Informasi yang dikumpulkan mungkin memasukkan karakteristik dokumen yang mirip dengan apa yang digunakan dalam text mining,  tetapi mungkin memasukkan konsep tambahan, seperti hirarki dokumen.

Penambangan konten web (web content mining) juga bisa digunakan untuk meningkatkan hasil yang dibuat oleh mesin pencari (search engine). Contohnya, Turetken dan Sharda (pakar data mining), menjelaskan suatu sistem visualisasi yang mengambil hasil suatu pencarian dari search engine seperti Google, membaca 100 dokumen teratas, meng-cluster dokumen-dokumen tersebut dengan memprosesnya dengan menggunakan IBM’s Intelligent Text Miner, dan kemudian menyajikan hasilnya dalam format grafis. [Baca juga: Analisa Cluster]

Sekilas tentang Web Mining (Penambangan Web) - Seri Text Mining dan Web Mining (6)

World Wide Web atau singkatnya Web saja  memiliki tempat penyimpanan data dan informasi yang sangat besar sekali yang bisa dibayangkan oleh seseorang  tentang segala hal secara virtual. Web barangkali adalah tempat penyimpanan data dan teks terbesar di dunia, dan jumlah informasi di web terus menerus tumbuh setiap hari. Banyak sekali informasi menarik bisa ditemukan di dunia online:  homepage siapa di link ke halaman-halaman lain mana, berapa banyak orang memiliki link ke halaman web tertentu, dan bagaimana situs tertentu diorganisir. Selain itu, setiap pengunjung yang datang ke web, setiap pencarian pada search engine, setiap klik pada suatu link, dan setiap transaksi pada situs e-commerce selalu menciptakan data baru. Meskipun data teks yang tak-terstruktur di web dikodekan dalam bentuk HTML atau XML merupakan konten web yang paling dominan, tetapi infrastruktur web juga berisi informasi tentang hyperlink (koneksi-koneksi ke berbagai halaman web lain) dan informasi tentang penggunaan web (log tentang interaksi pengunjung dengan situs), semuanya memberikan kekayaan data yang bisa membawa ke suatu penemuan pengetahuan (knowledge discovery). Analisa dari informasi ini bisa membantu kita untuk memperbaiki penggunaan situs dan juga membantu kita untuk meningkatkan hubungan dan nilai untuk para pengunjung pada situs kita.

Berbagai Software Text Mining - Seri Text Mining dan Web Mining (5)

Karena nilai pemanfaatan text mining semakin lama semakin disadari oleh berbagai organisasi atau perusahaan, jumlaj software yang ditawarkan oleh perusahaan-perusahaan software maupun perusahaan nirlaba juga terus meningkat. Berikut ini adalah berbagai software text mining yang paling popular yang diklasifikasikan berdasarkan software komersial dan software gratis (freeware).