Teknologi Pencarian World Wide Web

Teknologi Pencarian World Wide Web – World Wide Web sekarang menampung lebih dari enam miliar halaman yang mencakup hampir semua masalah harian.Ukuran Web yang berkembang pesat dan kurangnya gaya struktural menghadirkan tantangan baru untuk pencarian informasi.

Teknologi Pencarian World Wide Web

cerrrca – Melansir when-how, Teknik pencarian tradisional didasarkan pada pengguna yang mengetikkan kata kunci pencarian yang kemudian dapat digunakan oleh layanan pencarian untuk menemukan halaman Web yang diinginkan. Namun, pendekatan ini biasanya mengambil terlalu banyak dokumen, yang hanya sebagian kecil yang relevan dengan kebutuhan pengguna.

Baca juga : Cara Menggunakan Mesin Pencari Internet untuk Riset

Selain itu, dokumen yang paling relevan tidak selalu muncul di bagian atas daftar keluaran kueri. Banyak teknologi pencarian telah diterapkan ke mesin pencari Web; namun, metode pencarian yang dominan belum diidentifikasi. Artikel ini memberikan gambaran umum tentang teknologi yang ada untuk mesin pencari Web dan mengklasifikasikannya ke dalam enam kategori: i) eksplorasi hyperlink, ii) pencarian informasi, iii) pencarian meta, iv) pendekatan SQL, v) pencarian multimedia berbasis konten, dan vi) lainnya. Di akhir artikel ini, sebuah studi perbandingan mesin pencari komersial dan eksperimental utama disajikan, dan beberapa arahan penelitian masa depan untuk mesin pencari Web disarankan.

Persyaratan Mesin Pencari Web

Pertama-tama perlu untuk memeriksa fitur seperti apa yang diharapkan dimiliki oleh mesin pencari Web untuk melakukan pencarian Web yang efektif dan efisien. Persyaratan untuk mesin pencari Web tercantum di bawah ini dalam urutan kepentingan:

1. Lokasi dan peringkat dokumen Web yang efektif dan efisien;
2. Cakupan Web yang menyeluruh;
3. Informasi Web terkini;
4. Akses yang tidak bias ke halaman Web;
5. Antarmuka pengguna yang mudah digunakan yang juga memungkinkan pengguna membuat kueri yang masuk akal;
6. Hasil pencarian yang ekspresif dan bermanfaat; dan
7. Sistem yang beradaptasi dengan baik dengan permintaan pengguna.

LATAR BELAKANG

Dua pendekatan berbeda diterapkan pada layanan pencarian Web: mesin pencari dan direktori asli. Perbedaannya terletak pada bagaimana daftar dikompilasi.
• Mesin pencari, seperti Google, membuat daftar mereka secara otomatis.
• Direktori, seperti Yahoo!, bergantung pada manusia untuk listingnya.

Beberapa mesin pencari, yang dikenal sebagai mesin pencari hybrid, memelihara direktori terkait. Gambar 1 menunjukkan struktur sistem mesin pencari yang khas. Mesin pencari secara tradisional terdiri dari tiga komponen: i) crawler, ii) perangkat lunak pengindeksan, dan iii) perangkat lunak pencarian dan peringkat:

• Perayap adalah program yang secara otomatis memindai berbagai situs Web dan mengumpulkan dokumen Web dari situs tersebut. Dua algoritma pencarian, pencarian luas-pertama dan pencarian mendalam-pertama, banyak digunakan oleh crawler untuk melintasi Web.

• Pengindeksan otomatis adalah proses pemeriksaan item informasi secara algoritmik untuk membangun struktur data yang dapat dicari dengan cepat. Mesin pencari tradisional menggunakan informasi berikut, yang disediakan oleh skrip HTML, untuk menemukan halaman Web yang diinginkan: i) konten, ii) deskripsi, iii) hyperlink, iv) teks hyperlink, v) kata kunci, vi) judul halaman, vii) teks dengan font yang berbeda, dan viii) kalimat pertama.

• Pemrosesan kueri adalah aktivitas menganalisis kueri dan membandingkannya dengan indeks untuk menemukan item yang relevan. Seorang pengguna memasukkan kata kunci atau kata kunci, bersama dengan pengubah Boolean seperti “dan”, “atau”, atau “tidak”, ke dalam mesin pencari, yang kemudian memindai halaman Web yang diindeks untuk kata kunci. Untuk menentukan urutan tampilan halaman kepada pengguna, mesin menggunakan algoritme untuk menentukan peringkat halaman yang berisi kata kunci.

TEKNOLOGI MESIN PENCARIAN

Bagian ini membahas teknologi yang ada untuk mesin pencari Web dan mengklasifikasikannya ke dalam enam kategori: i) eksplorasi hyperlink, ii) pencarian informasi, iii) metasearches, iv) pendekatan SQL, v) pencarian multimedia berbasis konten, dan vi) lainnya.

Eksplorasi Hyperlink

Tautan dapat menjadi sumber informasi yang sangat penting bagi pengindeks; pembuatan hyperlink oleh penulis halaman Web merupakan dukungan implisit dari halaman yang ditunjuk. Pendekatan ini didasarkan pada identifikasi dua jenis halaman Web penting untuk topik tertentu:

• Otoritas, yang menyediakan sumber informasi terbaik tentang topik tersebut, dan
• Hub, yang menyediakan kumpulan tautan ke otoritas.

Otoritas dan hub diberikan peringkat teratas dalam hasil pencarian atau digunakan untuk menemukan halaman Web terkait.Metode sederhana untuk memperbarui otoritas non-negatif dengan bobot xp dan hub non-negatif dengan bobot yp diberikan oleh Chakrabarti et al. (1999). Jika halaman ditunjuk oleh banyak hub yang baik, bobot otoritasnya diperbarui dengan menggunakan rumus berikut: di mana notasi qp menunjukkan bahwa q terhubung ke p.

Pengambilan Informasi (IR)

Teknik IR banyak digunakan dalam pencarian dokumen Web. Diantaranya, umpan balik relevansi dan pengelompokan data adalah dua teknik paling populer yang digunakan oleh mesin pencari:

• Permintaan awal biasanya merupakan tebakan liar. Hasil kueri yang diperoleh kemudian digunakan untuk membantu menyusun kueri yang lebih tepat atau memodifikasi indeks basis data (Chang & Hsu, 1999). Dua metode umpan balik relevansi, modifikasi kueri dan modifikasi pengindeksan, dapat digunakan untuk meningkatkan pencarian. • Pengelompokan data digunakan untuk meningkatkan hasil pencarian dengan membagi seluruh kumpulan data ke dalam kelompok data. Setiap klaster data berisi objek dengan kemiripan tinggi, dan klaster diproduksi yang mengelompokkan dokumen yang relevan dengan permintaan pengguna secara terpisah dari yang tidak relevan.