Menelusuri 'Deep Web' Dimana Google Tidak Mampu Melakukannya

Musim panas lalu, Google mencatatkan tonggak sejarah dengan menambah alamat web yang ke 1 trilliun ke dalam daftar halamannya. Namun angka fantastis sebesar itu rupanya hanya merupakan kepingan-kepingan dari keseluruhan web.

Jauh diluar triliunan halaman web tersebut masih terbentang data tersembunyi seperti informasi keuangan, katalog belanja, jadwal penerbangan, penelitian medis dan semua jenis data yang tersimpan di database yang tetap masih tersembunyi dari search engine.

Tantangan utama bagi search engine adalah penetrasi terhadap data yang disebut sebagai 'Deep Web', untuk menjelaskan mengapa tidak mampu menyediakan jawaban-jawaban yang memuaskan atas pertanyaan seperti berapa harga tiket termurah dari New York ke London pada hari Kamis depan? Atau kapan the Yankees memainkan Red Sox tahun ini? Jawaban-jawaban tersebut bisa saja tersedia hanya bila search engine tahu bagaimana mendapatkannya.

Sekarang ini ada suatu proses pengembangan teknologi yang akan memperluas jangkauan search engine hingga ke tempat-tempat yang masih tersembunyi tersebut. Ini akan jauh lebih besar dari sekedar meningkatkan kualitas hasil pencarian, dan mungkin akan membentuk ulang cara-cara perusahaan menjalankan bisnis onlinenya.

Search engine bekerja melalui program crawler (atau spider) yang mengumpulkan informasi dengan cara menelusuri link-link pada web. Meskipun pendekatan ini berjalan dengan baik untuk halaman-halaman depan web, namun program ini sangat sulit menjangkau database yang di set untuk merespon query-query tertulis.

Web yang bisa di-crawl tersebut hanyalah puncak dari gunung es, kata Anand Rajaraman, teman pendiri Kosmix (www.kosmix.com), sebuah langkah awal terhadap gebrakan pencarian 'Deep Web' dimana salah satu investornya adalah Jeffrey P. Bezos, CEO Amazon.com. Kosmix telah mengembangkan software yang mencocokkan pencarian dengan database-database yang memiliki kemungkinan paling besar untuk menghasilkan informasi yang relevan dan kemudian mengembalikan hasilnya berupa overview topik yang diambil dari berbagai sumber.

Kebanyakan search engine adalah mencoba untuk membantu anda mencari jarum di tumpukan jerami, kata Rajaraman, tetapi yang kita coba adalah membantu untuk menjelajahi tumpukan jerami.

Tumpukan jerami itu sangatlah besar. Dengan jutaan database yang terkoneksi ke web dan dengan permutasi peluang yang tidak akan pernah selesai, tidak ada cara yang sederhana bagi search engine meskipun sangat handal dan ampuh untuk mengoyak setiap kombinasi peluang data secara on the fly.

Untuk mengekstrak data-data yang penting dari 'Deep Web', search engine haruslah menganalisa berbagai istilah pencarian dari user dan menentukan bagaimana menjembatani query-query tersebut ke database tertentu. Misalnya, bila user mengetikkan Rembrandt, search engine perlu tahu database mana yang paling berpeluang berisi informasi mengenai seni (misalnya, katalog-katalog museum atau rumah-rumah lelang), dan query-query apa yang bisa diterima oleh database-database itu.

Pendekatan seperti itu nampak mudah dalam teori, tetapi dalam praktek akan ada struktur database dan istilah-istilah pencarian yang sangat banyak dan merupakan tantangan komputasi yang sangat sulit.

Strategy pencarian 'Deep Web' dari Google melibatkan sebuah program untuk menganalisa isi dari database yang ditemui. Misalnya, bila search engine menemui halaman yang terkait dengan seni, dia akan mulai menebak berbagai istilah yang mungkin muncul, Rembrandt, Picasso, Vermeer dan seterusnya hingga salah satu dari istilah itu mengembalikan hasil yang cocok. Search engine kemudian menganalisa dan mengembangkan model predictive mengenai database mana yang isinya berkaitan.

Dengan nada yang serupa, Prof. Juliana Freire di University of Utah sedang melakukan project ambisius yang disebut DeepPeep (www.deeppeep.org) yang pada akhirnya bertujuan untuk men-crawl dan men-index setiap database di web publik. Mengekstrak isi sekumpulan data yang tersebar luas memerlukan permainan komputasi yang sangat canggih.

Cara yang naive adalah dengan cara men-query semua kata dalam kamus, kata Ms. Freire. Sebaliknya, DeepPeep memulai dengan menghimpun sejumlah kecil query sebagai sampel, sehingga kita kemudian bisa membangun pemahaman terhadap database dan memilih kata-kata yang akan dicari.

Berdasarkan analisys tersebut, program kemudian akan memicu istilah-istilah pencarian secara otomatis dalam usahanya untuk mengeluarkan data yang berpeluang sebanyak mungkin. Ms. Freire mengklaim bahwa pendekatannya ini lebih bagus 90% dalam memunculkan data yang disimpan di database-database yang diberikan. Karya Ms. Freire ini belakangan menarik minat penawaran dari salah satu perusahaan search engine besar.

Ketika search engine mulai berkesperimen untuk menggabungkan isu 'Deep Web' ke dalam hasil pencarian, haruslah ditentukan cara bagaimana menyajikan data tanpa kerumitan pada halaman-halaman hasil tersebut. Ini akan menimbulkan kebingungan terhadap google yang telah lama bertahan terhadap godaan untuk tidak mengubah format hasil pencariannya.

Google menghadapi tantangan nyata, kata Chris Sherman, Redaktur Pelaksana situs Search Engine Land. Mereka ingin membuat sesuatu yang lebih bagus tapi mereka juga sangat berhati-hati terhadap perubahan karena takut akan membingungkan para penggunanya.

Pada akhirnya teknologi 'Deep Web' mungkin akan mengijinkan para pebisnis untuk menggunakan data dengan cara yang baru. Misalnya, sebuah situs kesehatan bisa mendapatkan referensi silang data dari perusahaan-perusahaan farmasi dan temuan-temuan terbaru dari para peneliti medis, atau suatu situs berita lokal yang memperluas cakupannya dengan mengijinkan user untuk mengakses ke record-record data di database pemerintah.

Satu hal besar adalah kemampuan untuk terhubung ke sumber-sumber data yang sangat berlainan, kata Mike Bergman, ahli komputer dan konsultan yang dipercaya sebagai yang meperkenalkan istilah 'Deep Web'. Kata Mr. Bergman, akibat jangka panjang pencarian 'Deep Web' adalah semakin banyak yang harus dilakukan dengan transformasi bisnis daripada memuaskan tingkah laku para peselancar web.

nytimes.com, beritati

No comments:

Post a Comment