Google Lens revoluciona la búsqueda con nuevas funciones de vídeo y voz

Eduardo Ruiz 4 octubre, 2024

En mayo de 2024, durante la conferencia I/O, Google presentó nuevas capacidades de búsqueda por voz y vídeo para su aplicación Google Lens. Esta mejora permite a los usuarios iniciar búsquedas simplemente presionando prolongadamente la interfaz de Lens y formulando sus consultas de forma oral. Con esta actualización, se busca potenciar la eficiencia y comodidad a la hora de obtener información.

El funcionamiento de la búsqueda de vídeo se basa en un modelo especializado llamado Gemini, desarrollado por Google. Los usuarios pueden acceder a esta funcionalidad a través de Search Labs en plataformas Android e iOS. No obstante, por el momento, la búsqueda por voz está restringida a consultas en inglés.

Este avance ofrece un resumen generado por inteligencia artificial y resultados de búsqueda relevantes, adaptados al contenido del vídeo y a la pregunta del usuario. Durante la demostración realizada en el evento I/O, un visitante de un acuario mostró cómo, al apuntar su smartphone hacia los peces mientras usaba la aplicación Lens, pudo grabar su nado y preguntar por qué nadaban juntos. El sistema, impulsado por Google Gemini, procesó su consulta para proporcionar una respuesta adecuada.

La inclusión de la búsqueda de vídeo en Google Lens permite a los usuarios presentar de manera interactiva objetos en movimiento a su dispositivo, facilitando un enfoque más dinámico para adquirir información. Para acceder a esta nueva función, los usuarios deben participar en el experimento «AI Overviews and more» disponible en Search Labs.

Rajan Patel, vicepresidente de ingeniería de Google, compartió detalles sobre la tecnología subyacente, explicando que la compañía captura vídeo como una serie de fotogramas secuenciales. Los métodos actuales de visión por ordenador utilizados por Lens se integran en este enfoque. Además, las respuestas generadas por el sistema se fundamentan en un modelo Gemini diseñado específicamente para interpretar múltiples fotogramas en sucesión. Tras analizar estos fotogramas, el modelo recopila información de fuentes en línea para construir respuestas relevantes.

En resumen, este desarrollo representa una extensión práctica de las tecnologías existentes de Google, añadiendo un valor significativo a Google Lens al mejorar su capacidad para proporcionar respuestas contextualizadas a las consultas de los usuarios.

Fuente