OAtekno.com – Google mengumumkan kemampuan pencarian dengan video dan suara untuk Google Lens pada Mei 2024, dalam acara I/O 2024. Kini, perusahaan mulai menerapkan fitur ini di Google Lens, di mana pengguna bisa menekan lama dan bertanya langsung menggunakan suara. Fitur ini membuat pencarian jadi lebih mudah dan praktis.

Fitur Pencarian Video di Google Lens Menggunakan Model Khusus Gemini

Saat ini, Google sedang meluncurkan fitur tersebut di Search Labs pada perangkat Android dan iOS. Namun, untuk saat ini, fitur pencarian suara di Google Lens hanya tersedia untuk pencarian dalam bahasa Inggris.

Fitur ini menampilkan AI Overview dan hasil pencarian berdasarkan konten video serta pertanyaan yang diajukan pengguna. Dalam video pratinjau yang dirilis pada acara I/O, Google memperlihatkan seseorang yang penasaran tentang ikan di sebuah akuarium. Pengguna dapat mengarahkan ponsel mereka ke pameran, membuka aplikasi Google Lens, dan menekan lama tombol rana.

Baca juga: Apple Bakal Memperkenalkan Perangkat Terbarunya di Event Oktober 2024 Ini!

Saat Lens mulai merekam, pengguna dapat mengajukan pertanyaan berdasarkan apa yang mereka lihat. Misalnya, ketika ditanya, “Mengapa mereka berenang bersama?” Lens memberikan jawaban menggunakan Google Gemini.

Kemampuan untuk mencari dengan video memungkinkan pengguna menunjukkan bagaimana objek bergerak dan mengajukan pertanyaan terkait, yang membuat Google Lens jauh lebih berguna dalam skenario tertentu. Pengguna dapat mencoba fitur ini dengan bergabung dalam eksperimen “AI Overviews and more” di Search Labs.

Cara Kerja Fitur Pencarian Video

Bagi yang penasaran bagaimana fitur ini bekerja, Rajan Patel, Wakil Presiden Teknik di Google, menjelaskan bahwa Google menangkap video sebagai serangkaian image frames (bingkai gambar) dan menerapkan teknik computer vision yang sama seperti yang sudah digunakan oleh Lens. Selain itu, Google juga mengungkapkan bahwa jawaban yang diberikan berasal dari model khusus Gemini yang dirancang untuk memahami beberapa bingkai secara berurutan. Setelah bingkai diproses, model ini menggunakan informasi dari web terkait topik untuk menghasilkan respons.

Via