Alat AI baru dari Google ini Dapat Mengubah Cara Kita Mencari Secara Online

Alat AI baru dari Google ini Dapat Mengubah Cara Kita Mencari Secara Online – Seperti apa masa depan pencarian internet? Google membayangkannya sebagai percakapan biasa dengan seorang teman.

Alat AI baru dari Google ini Dapat Mengubah Cara Kita Mencari Secara Online

 Baca Juga : Mesin Pencari Brave Versi Beta Diluncurkan

cerrrca – Sementara mesin pencari Google telah online selama lebih dari dua dekade, teknologi yang mendukungnya terus berkembang. Baru-baru ini, perusahaan mengumumkan sistem kecerdasan buatan baru yang disebut MUM, yang merupakan singkatan dari Multitask Unified Model. MUM dirancang untuk mengambil seluk-beluk dan nuansa bahasa manusia pada skala global, yang dapat membantu pengguna menemukan informasi yang mereka cari dengan lebih mudah atau memungkinkan mereka untuk mengajukan pertanyaan yang lebih abstrak.

Google telah menggunakan MUM dalam tugas independen untuk mempelajari lebih lanjut tentang berbagai cara orang merujuk pada vaksin COVID , tetapi mengatakan bahwa teknologi baru tersebut belum menjadi bagian dari sistem pencarian mereka. Meskipun saat ini tidak ada garis waktu yang ditetapkan kapan fitur tersebut akan diluncurkan dalam pencarian langsung, tim secara aktif bekerja mengembangkan tugas satu kali lainnya untuk diselesaikan oleh MUM.

Inilah yang perlu diketahui tentang apa itu MUM, perbedaannya dari yang sebelumnya, dan banyak lagi.

Memecahkan permainan nama vaksin COVID
Ketika vaksin tersedia awal tahun ini, Pandu Nayak, VP pencarian di Google, dan rekan merancang sebuah “pengalaman” yang memberi orang informasi tentang vaksin COVID–di mana mendapatkannya, cara kerjanya, dan di mana tersedia–kapan pengguna mencarinya. Pengalaman tersebut menggabungkan semua informasi penting dan relevan ini bersama-sama dan menyematkannya ke bagian atas halaman pertama hasil pencarian. Tapi pertama-tama, tim perlu memprogramnya sehingga hanya muncul ketika pertanyaan tentang vaksin COVID. Itu bisa menjadi masalah karena orang di seluruh dunia mungkin merujuk pada vaksin COVID dengan cara yang berbeda, dan dengan nama yang berbeda.

Tahun lalu, tim menghabiskan ratusan jam menyisir sumber daya untuk mengidentifikasi semua nama berbeda untuk COVID itu sendiri. Tapi tahun ini, mereka punya MUM. “Kami dapat membuat eksperimen yang sangat sederhana dengan MUM yang dalam hitungan detik dapat menghasilkan lebih dari 800 nama untuk 17 vaksin berbeda dalam 50 bahasa berbeda,” kata Nayak. “Kami memiliki banyak tugas bahasa yang perlu diselesaikan, apakah itu klasifikasi, peringkat, ekstraksi informasi, dan banyak lagi lainnya. Dalam jangka pendek, kami berharap untuk menggunakan MUM untuk meningkatkan masing-masing. Bukan berarti itu akan mengarah ke fitur baru atau pengalaman baru, melainkan, fitur yang ada dan pengalaman yang ada hanya akan bekerja jauh lebih baik.”

Bertemu MUM di Google I/O

Kami pertama kali mendengar tentang MUM di konferensi pengembang Google I/O di musim semi, ketika Prabhakar Raghavan, wakil presiden senior di Google, meluncurkannya.

Teknologi baru ini merupakan evolusi alami dari pencarian berbasis pembelajaran mesin yang telah disempurnakan dan dimodifikasi oleh Google selama dekade terakhir. Google membanggakan bahwa MUM mampu memperoleh pengetahuan mendalam tentang dunia, memahami bahasa dan menghasilkannya, dan melatih 75 bahasa sekaligus. Ada juga pengujian percontohan internal apakah itu bisa multimodal—yaitu, mampu secara bersamaan memahami berbagai bentuk informasi seperti teks, gambar, dan video.

Semua kerumitan ini dapat diilustrasikan dengan contoh sederhana yang diberikan pada konferensi dan melalui posting blog . Misalkan Anda bertanya kepada Google, “Saya telah mendaki Gunung Adams dan sekarang ingin mendaki Gunung Fuji musim gugur mendatang, apa yang harus saya lakukan secara berbeda untuk mempersiapkannya?” Ini adalah jenis permintaan pencarian yang kebanyakan orang tidak akan repot mengetik hari ini, karena pengguna mengerti bahwa umumnya bukan itu cara Anda mencari informasi secara online.

“Ini adalah pertanyaan yang biasa Anda tanyakan kepada teman, tetapi mesin pencari saat ini tidak dapat menjawabnya secara langsung karena begitu percakapan dan bernuansa,” jelas Raghavan di I/O. Namun idealnya, MUM akan memahami bahwa Anda ingin membandingkan dua gunung, dan juga memahami bahwa “persiapan” dapat mencakup hal-hal seperti pelatihan kebugaran untuk medan dan perlengkapan mendaki untuk cuaca musim gugur. Itu akan dapat membedah pertanyaan Anda dan memecahnya menjadi serangkaian pertanyaan, mempelajari setiap aspek masalah Anda, lalu menyatukannya kembali. Pengguna dapat mengklik untuk mempelajari lebih lanjut tentang hasil pencarian yang terkait dengan setiap aspek pertanyaan, dan juga mendapatkan teks menyeluruh yang menjelaskan bagaimana kueri asli dijawab.

Pengalaman seperti ini adalah tujuan jangka panjang para insinyur MUM, dan waktu yang dibutuhkan untuk mencapai tujuan itu masih belum jelas. Bekerja mundur, dalam jangka menengah, para insinyur di Google melatih MUM untuk mengenali hubungan antara kata dan gambar, dan itu berjalan dengan baik. Nayak mengatakan bahwa ketika mereka meminta MUM untuk membuat gambar untuk sepotong teks baru yang mereka berikan, seperti Siberian Husky, itu “pekerjaan yang cukup luar biasa.”

Sejarah singkat pencarian

Sejak didirikan pada tahun 1998, Google terus menerus memetakan web, mengumpulkan banyak sekali konten di luar sana dan membuat indeks untuk mengatur semua informasi.

Anda dapat menganggap indeks pencarian Google berfungsi seperti indeks di bagian belakang buku. Ini memberi tahu Anda semua halaman tempat kata tertentu muncul. Kecuali dengan internet, ada dua perbedaan penting. Satu, adalah bahwa sebuah buku mungkin memiliki 300 hingga mungkin 1.000 halaman, yang tidak seberapa dibandingkan dengan triliunan halaman web. Perbedaan penting kedua adalah bahwa dengan indeks di bagian belakang buku, Anda mencari satu kata pada satu waktu, sedangkan di web, Anda mencari kombinasi kata. “Kami mendapatkan miliaran pertanyaan setiap hari dari seluruh dunia karena skala ini dan karena ledakan kombinasi ini,” kata Nayak. “Dan fakta yang luar biasa di sini adalah bahwa 15 persen dari pencarian yang kami dapatkan setiap hari adalah yang belum pernah kami lihat sebelumnya. Ada banyak hal baru dalam aliran kueri.”

Sebagian dari kebaruan dikaitkan dengan cara-cara baru salah mengeja kata, tambah Nayak, dan sebagian lagi karena dunia terus berubah, dan ada hal-hal baru (dan terkadang sangat spesifik) yang diminta orang.

Untuk mengupas semua informasi web yang mungkin hingga informasi yang benar-benar relevan dengan kueri Anda, Google menggunakan algoritme untuk menentukan peringkat halaman yang dianggap paling berguna di bagian atas, menggunakan faktor-faktor seperti kesegaran dan lokasi, dan juga bagaimana halaman yang berbeda menautkan satu sama lain. “Sejauh ini, faktor kelas yang paling penting berkaitan dengan pemahaman bahasa,” kata Nayak. “Pemahaman bahasa benar-benar merupakan inti dari pencarian, karena Anda perlu memahami apa arti kueri, Anda perlu memahami apa arti dokumen, dan bagaimana keduanya cocok satu sama lain.”

Tentu saja, perangkat lunak tidak dapat benar-benar memahami bahasa seperti yang kita lakukan, dengan segala kehalusan dan nuansanya. Tetapi programmer dapat mengembangkan berbagai strategi yang mencoba memperkirakan bagaimana kita memahami bahasa. Lebih dari 16 tahun yang lalu, Google membangun versi pertama dari sistem sinonim, yang menjelaskan fakta bahwa kata-kata yang berbeda memiliki arti yang berbeda dalam konteks yang berbeda. Jadi “perubahan” bisa berarti “menyesuaikan” ketika Anda berbicara tentang kecerahan laptop. Tanpa memahami hal ini, banyak halaman yang relevan akan dikeluarkan dari hasil pencarian karena variasi pilihan kata.

Kemudian, sekitar satu dekade yang lalu, perusahaan membuat grafik pengetahuan . Gagasan di baliknya adalah bahwa kata-kata, dalam kueri atau dokumen, bukan hanya aliran karakter, tetapi dapat berarti sesuatu jika merujuk pada orang, tempat, atau benda di dunia. “Jika Anda tidak memahami referensi tentang apa arti rangkaian karakter tertentu, maka Anda belum sepenuhnya memahami apa arti kata itu,” jelas Nayak. Entitas seperti orang, tempat, benda, perusahaan, dimasukkan ke dalam database, dan grafik pengetahuan menghubungkan hubungan di antara mereka. Ini juga mengkompilasi ringkasan singkat tentang fakta cepat yang perlu diketahui tentang entitas seperti selebriti atau tengara.

Misalnya, jika Anda menelusuri “Marie Curie”, grafik pengetahuan Google dapat memberi tahu Anda kapan dan di mana dia dilahirkan, dengan siapa dia menikah, dengan siapa anak-anaknya, di mana dia kuliah, dan apa yang dia dikenal. Ini adalah cara mudah menampilkan informasi di luar hanya daftar hasil halaman yang ditampilkan Google setelah pencarian.

Pembelajaran mesin memanas

Sekitar enam tahun lalu, Google meluncurkan versi pertama pencarian berbasis pembelajaran mesin. Kemudian, terus ditingkatkan berdasarkan penelitian yang meningkat di komunitas pembelajaran mendalam di sekitar algoritma bahasa alami yang dapat melihat konteks di mana sebuah kata digunakan untuk memahami maknanya dan mencari tahu bagian mana dari konteks yang harus diperhatikan. Pada tahun 2019, Google memperkenalkan arsitektur BERT untuk pencarian. Algoritme pelatihannya secara efektif merupakan serangkaian latihan “mengisi yang kosong”. Anda akan mengambil frasa umum, memblokir kata-kata acak, dan meminta jaringan untuk memprediksi kata-kata itu. Ini juga disebut model bahasa bertopeng.

Untuk kueri seperti, “bisakah Anda mendapatkan obat untuk seseorang di apotek”, sebelumnya, seorang penelusur akan mendapatkan hasil tentang mengambil resep di apotek. BERT mengerti bahwa itu tidak hanya mengambil resep, tetapi mengambil resep untuk orang lain, seperti teman atau anggota keluarga. “Kami dapat memunculkan hasil yang lebih relevan karena ini mengambil beberapa kehalusan dalam pertanyaan yang sebelumnya tidak dapat kami tangani,” kata Nayak.

Ke depan, MUM tidak hanya mampu memahami bahasa seperti BERT, tetapi juga mampu menghasilkan bahasa. Relatif, MUM jauh lebih besar dari BERT dan memiliki lebih banyak kemampuan (Google mengatakan bahwa itu sekitar 1.000 kali lebih kuat). MUM dilatih pada subset berkualitas tinggi dari korpus web publik di semua bahasa berbeda yang dilayani Google. Tim pencari menghapus konten berkualitas rendah, konten dewasa, konten eksplisit, ujaran kebencian, sehingga jenis bahasa yang dipelajari MUM, dalam arti tertentu, bagus (semoga). Dengan dilatih secara bersamaan pada semua bahasa pada saat yang sama, ia mampu menggeneralisasi informasi dari bahasa dengan jumlah data yang sangat besar ke bahasa dengan data yang lebih sedikit, yang dapat mengisi kesenjangan di mana ada lebih sedikit data yang tersedia untuk pelatihan.

Namun Nayak mengakui bahwa pasti ada tantangan dengan model bahasa besar seperti MUM yang sedang dikerjakan oleh tim untuk diselesaikan secara aktif. “Satu, misalnya, adalah pertanyaan tentang bias. Karena ini dilatih di luar korpus web, ada kekhawatiran apakah ini mencerminkan atau memperkuat bias yang ada di web,” kata Nayak. Fakta bahwa itu dilatih pada subset corpus berkualitas tinggi, Nayak berharap, akan menghilangkan beberapa bias yang paling mengerikan. Google terus menggunakan penilai kualitas pencarian dan proses evaluasi lainnya untuk memeriksa hasil mereka dan mencari pola masalah. “Itu tidak menyelesaikan semua masalah, tetapi ini adalah mitigasi yang signifikan.”

MUM sedang membangun kumpulan fitur inovatif yang telah Google uji coba untuk membuat pencarian lebih baik. “Saat ini, ketika orang datang untuk mencari, mereka tidak datang dengan pertanyaan yang terbentuk sepenuhnya di kepala mereka. Mereka datang untuk mencari dengan maksud yang luas tentang sesuatu yang terjadi dalam hidup mereka,” kata Nayak. “Anda harus mengambil kebutuhan kabur yang Anda miliki, mengubahnya menjadi satu atau lebih kueri yang dapat Anda keluarkan ke Google, mempelajari berbagai aspek masalah dan menggabungkannya.”

Fitur seperti pelengkapan otomatis telah, sampai batas tertentu, mencoba membantu membuat proses pencarian lebih mudah, tetapi MUM dapat membuka serangkaian kemungkinan baru. “Pertanyaan sebenarnya menurut saya dengan semua alat pencarian,” kata Nayak, “karena itu adalah alat, adalah: Meskipun tidak sempurna, apakah itu berguna?”