X
    Categorias: Xiaomi

Xiaomi revoluciona la comprensión de audio y generación musical seleccionada para ICASSP 2026

Lei Jun, fundador, presidente y CEO de Xiaomi, ha anunciado que múltiples innovaciones en inteligencia artificial desarrolladas por la compañía han sido aceptadas para su presentación en la prestigiosa conferencia ICASSP 2026. Estas innovaciones cubren distintos ámbitos relacionados con la IA, como la comprensión de audio, la evaluación de generación musical, el preentrenamiento cruzado audio-texto y la síntesis de vídeo a audio. Xiaomi demuestra así su apuesta por liderar avances clave en inteligencia artificial aplicada a la señal y audio.

ICASSP (Conferencia Internacional de Acústica, Habla y Procesamiento de Señales) es una de las citas más importantes a nivel global en el campo del audio, con una trayectoria que empezó en 1976 en Filadelfia, EE. UU. La edición de 2026 tendrá lugar en Barcelona, España, y reunirá a investigadores y empresas que están impulsando los límites de la tecnología acústica y del procesamiento de señales.

Innovaciones clave de Xiaomi para ICASSP 2026

Entre las aportaciones de Xiaomi destaca el dataset ACAVCaps, que responde a un problema crítico en la investigación sobre comprensión de audio: el equilibrio entre la escala del conjunto de datos y el nivel de detalle en las anotaciones. ACAVCaps incluye alrededor de 4.7 millones de pares audio-texto, generados mediante un proceso automatizado de anotación multinivel. Este pipeline aprovecha múltiples modelos expertos para extraer metadatos específicos, como eventos sonoros, características musicales, atributos del hablante y contenido del discurso. Además, se emplean modelos de lenguaje grande y razonamiento encadenado para transformar datos estructurados fragmentados en descripciones naturales coherentes y contextualizadas, mejorando así la comprensión semántica más allá del reconocimiento básico de características. Xiaomi tiene previsto liberar este conjunto de datos próximamente.

Otro proyecto destacado es FedDCG, que aborda los retos relacionados con la generalización de dominio y clase en el aprendizaje federado para modelos vision-language, como CLIP. Esta propuesta implementa una estrategia de agrupación por dominio y un entrenamiento colaborativo específico por clase, mejorando simultáneamente la precisión y robustez del modelo en contextos con dominios y clases no vistos previamente. Las pruebas realizadas con datasets como Office-Home y MiniDomainNet muestran un rendimiento zero-shot superior frente a métodos previos, manteniendo una buena eficacia incluso con datos limitados.

En generación de música a partir de texto, el modelo FUSEMOS aporta un sistema de doble codificador que combina modelos preentrenados como CLAP y MERT para captar estructuras musicales complejas y su semántica. Utilizando una estrategia de fusión tardía y una función de pérdida compuesta y sensible al ranking, FUSEMOS logra una mayor precisión en la predicción y una alineación más fiel a la evaluación perceptual humana, según el benchmark MusicEval.

Xiaomi y la innovación en preentrenamiento y síntesis audiovisual

GLAP es otro modelo relevante, que extiende el preentrenamiento contrastivo audio-texto a múltiples dominios (habla, música, sonidos ambientales) y diversos idiomas. GLAP destaca por su fuerte capacidad de recuperación zero-shot en tareas multilingües de detección de palabras clave, además de integrar aplicaciones prácticas en el ecosistema Xiaomi, como interacción robusta por voz, comprensión multimodal de comandos en vehículos y recuperación de audio cross-lingüe.

El modelo MeanFlow aborda problemas de eficiencia y calidad en la síntesis de audio a partir de vídeo, permitiendo una generación en un solo paso que acelera los tiempos de inferencia hasta 500 veces sin sacrificar la calidad de salida ni la sincronización audiovisual. Esto se logra gracias a un modelado del campo de velocidad promedio y un mecanismo de reescalado escalar que mitiga artefactos comunes en métodos de generación rápida.

El marco Think-Clip-Sample (TCS), desarrollado en colaboración con la Universidad Renmin, mejora la comprensión de vídeos largos para modelos multimodales basados en grandes lenguajes, incorporando razonamiento con múltiples consultas y muestreo slow-fast a nivel de clip. Este enfoque incrementa la precisión hasta un 6,9% en benchmarks mientras reduce a la mitad el tiempo de inferencia, ofreciendo una solución plug-and-play que equilibra coste computacional y cobertura semántica para escenarios con recursos limitados.

Finalmente, Xiaomi presenta un sistema unificado para recuperación multimodal y multilingüe que integra búsqueda de imágenes, textos y comprensión de intención en dos modelos mediante aprendizaje multitarea y procesamiento natural del lenguaje. Este diseño optimiza el consumo de memoria y mejora la precisión en recuperación a través de diversas lenguas y modalidades, superando considerablemente a otros modelos en varios datasets estándar.

En conjunto, estos avances reflejan el compromiso de Xiaomi por impulsar la frontera de la inteligencia artificial en audio, visión y comprensión multimodal, apostando por soluciones escalables, eficientes y aplicables en entornos reales, reafirmando su posición como referente en innovación tecnológica en IA.

Fuente

Eduardo Ruiz: Amante de la tecnología, escribo para compartir una de las mayores aficiones que tengo y poder estar al día en el aspecto tecnológico.
Artículos relacionados