Mesin Pencari Dapat Membantu Peneliti Menjelajahi Internet Untuk Dokumen Privasi

Mesin Pencari Dapat Membantu Peneliti Menjelajahi Internet Untuk Dokumen Privasi – Mesin pencari yang menggunakan kecerdasan buatan (AI) untuk “membaca” jutaan dokumen online dapat membantu peneliti privasi menemukan dokumen yang terkait dengan privasi online. Para peneliti yang merancang mesin pencari menyarankan itu bisa menjadi alat penting bagi para peneliti yang mencoba menemukan cara untuk merancang internet yang lebih aman.

Mesin Pencari Dapat Membantu Peneliti Menjelajahi Internet Untuk Dokumen Privasi

 Baca Juga : IndexNow Merupakan Inisiatif Baru Oleh Microsoft dan Yandex Untuk Mendorong Konten ke Mesin Pencari

cerrrca – Dalam sebuah penelitian, para peneliti mengatakan bahwa mesin pencari, yang mereka juluki PrivaSeer , menggunakan jenis AI yang disebut pemrosesan bahasa alami – NLP – untuk mengidentifikasi dokumen privasi online, seperti kebijakan privasi, perjanjian persyaratan layanan, kebijakan cookie, tagihan privasi. dan hukum, pedoman peraturan dan teks terkait lainnya di web.

Daripada mencoba mencari dokumen privasi sendiri, peneliti dapat mengetikkan pertanyaan mereka ke dalam mesin pencari untuk mengidentifikasi dan mengumpulkan dokumentasi yang benar secara efisien.

Namun, pada akhirnya, mesin pencari dapat membantu peneliti lebih memahami privasi online secara umum dan memeriksa tren privasi online dari waktu ke waktu, yang suatu hari nanti dapat mengarah ke internet yang dapat dinavigasi pengguna dengan lebih aman dan terjamin , menurut Shomir Wilson , asisten profesor informasi. sains dan teknologi di Penn State dan afiliasi Institute for Computational and Data Sciences .

“Ini bisa menjadi sumber bagi para peneliti baik dalam pemrosesan bahasa alami dan privasi, yang tertarik dengan domain teks ini,” kata Wilson. “Mengingat volume teks yang besar seperti ini, kami dapat menemukan cara untuk mengidentifikasi dan secara otomatis melabeli praktik data tertentu yang mungkin diminati orang, yang kemudian memungkinkan membangun alat untuk membantu pengguna memahami privasi online.”

NLP menggabungkan linguistik, ilmu komputer, dan AI untuk memprogram komputer untuk memproses dan menganalisis teks dalam jumlah besar. Dalam hal ini, para peneliti menggunakan NLP untuk mengumpulkan dokumen kebijakan privasi dari web, menurut Mukund Srinath, seorang mahasiswa doktoral dalam ilmu dan teknologi informasi dan penulis pertama studi tersebut.

“Pendekatan NLP dapat membedakan antara dokumen kebijakan privasi dan dokumen kebijakan nonprivasi berdasarkan kata-kata tertentu yang muncul dalam teks,” kata Srinath. “Secara intuitif, Anda dapat berpikir bahwa kebijakan privasi mungkin memiliki kata-kata tertentu di dalamnya yang tidak dimiliki oleh kebijakan nonprivasi, seperti perlindungan data dan privasi, yang hanyalah beberapa kata umum. Dengan pendekatan NLP, bisa dikatakan bahwa algoritma belajar mengenali perbedaan antara dua jenis dokumen yang berbeda itu.”

Dia menambahkan bahwa mencari dan mengklasifikasikan dokumentasi privasi tanpa pembelajaran mesin akan memakan waktu dan sulit, jika bukan tidak mungkin.

Wawasan yang lebih dalam tentang informasi privasi diperlukan karena jenis dokumentasi ini sebagian besar diabaikan oleh pengguna biasa, menurut Wilson.

“Sebagian besar situs web memberi Anda informasi tentang praktik data mereka dan kemudian Anda seharusnya menyetujui dengan benar-benar membaca dan membaca semua informasi ini,” kata Wilson. “Tapi tidak ada yang benar-benar melakukannya karena tidak praktis dan tidak sesuai dengan cara orang menggunakan internet. Orang juga biasanya tidak memiliki pengetahuan hukum.”

Kebijakan privasi dikumpulkan oleh mesin pencari PrivaSeer selama dua penjelajahan web yang terpisah. Perayapan web mengacu pada penjelajahan internet secara sistematis dalam skala besar, seperti yang dilakukan oleh program perangkat lunak. Crawling pertama terjadi pada Juli 2019. Crawling kedua terjadi pada Februari 2020.

Basis data PrivaSeer sekarang terdiri dari sekitar 1,4 juta kebijakan privasi situs web berbahasa Inggris.

“Satu hal yang membedakan database kami adalah kami memiliki snapshot tunggal terbesar dalam hal privasi online,” kata Wilson.

Soundarya Nurani Sundareswara, mantan mahasiswa pascasarjana dalam ilmu dan teknologi informasi, saat ini menjadi insinyur perangkat lunak di Apple, dan C. Lee Giles, Profesor David Reese di Sekolah Tinggi Ilmu Pengetahuan dan Teknologi Informasi, keduanya dari Penn State, bekerja dengan Wilson dan Srinath di proyek.

Tim mempublikasikan temuan mereka dalam Konferensi Internasional tentang Teknik Web .