ZipVoice de Xiaomi AI Lab mejora la síntesis de voz zero-shot con nuevos modelos

Eduardo Ruiz

7 meses hace

Categorias: Xiaomi

ZipVoice de Xiaomi AI Lab mejora la síntesis de voz zero-shot con nuevos modelos

Xiaomi Group AI Lab ha presentado la serie ZipVoice, un conjunto de modelos de texto a voz (TTS) desarrollados por su equipo Kaldi, basados en la arquitectura Flow Matching. La familia incluye dos variantes principales: ZipVoice, un modelo de síntesis de voz para un solo hablante en modo zero-shot, y ZipVoice-Dialog, diseñado para síntesis de voz conversacional en zero-shot. Esta serie ZipVoice supone un avance importante en eficiencia y rapidez, manteniendo una alta calidad en la generación de voz, lo que supone un salto en la síntesis de voz que Xiaomi ha logrado combinar con modelos más ligeros y optimizados.

ZipVoice se focaliza en resolver limitaciones comunes en los modelos TTS zero-shot actuales, como el gran tamaño de los parámetros y la lentitud en la síntesis. Este desarrollo reduce significativamente el peso del modelo y acelera el proceso de inferencia sin perder fidelidad en el resultado. Por su parte, ZipVoice-Dialog mejora la estabilidad y la velocidad de inferencia en contextos de diálogo, ofreciendo una solución pensada para aplicaciones que requieren una interacción rápida y natural en tiempo real.

Arquitectura ZipVoice basada en Zipformer

Una característica destacada de ZipVoice es la integración de la arquitectura Zipformer, inicialmente creada para reconocimiento automático del habla (ASR) y ahora adaptada para TTS como red principal. Zipformer combina una estructura U-Net multiescala eficiente con procesamiento colaborativo de convolución y mecanismos de atención, reutilizando repetidamente los pesos de atención. Esto encaja perfectamente con las exigencias de la síntesis de voz, permitiendo construir un modelo eficaz y específico para la generación vocal automática.

Comparado con modelos TTS basados en DiT con rendimiento parecido, ZipVoice reduce la cantidad de parámetros en un 63%, una optimización considerable que se refleja en un tamaño más compacto y una mayor velocidad. Tanto ZipVoice como ZipVoice-Distill mantienen métricas competitivas en varios benchmarks objetivos, como similitud del hablante (SIM-o), tasa de error de palabras (WER) y UTMOS, además de evaluaciones subjetivas como CMOS y SMOS. Esto los posiciona en la vanguardia del ámbito zero-shot, con una combinación de rapidez y precisión poco habitual.

Xiaomi destaca que la serie ZipVoice ofrece una mezcla equilibrada de bajo requerimiento paramétrico, aceleración en la inferencia y alta calidad vocal. ZipVoice-Dialog aparece como una solución innovadora para síntesis conversacional rápida y estable, especialmente pensada para aplicaciones ligeras que demandan procesamiento veloz y fiable. El desarrollo continúa, con optimizaciones previstas para ampliar el acceso a la síntesis de voz de calidad a menor coste. Además, han liberado el código y modelos ZipVoice junto con un dataset abierto de 6.800 horas, facilitando la investigación y despliegue práctico en esta área. La presentación oficial de ZipVoice está programada para ASRU 2025, mostrando el compromiso de Xiaomi con la comunidad científica y tecnológica.

Fuente

Acerca de
Últimas entradas

Eduardo Ruiz

Amante de la tecnología, escribo para compartir una de las mayores aficiones que tengo y poder estar al día en el aspecto tecnológico.

Últimas entradas de Eduardo Ruiz (ver todo)

Honor 600 Pro filtrado con innovadora cámara trasera en matriz horizontal y diseño de pantalla estrecha cuatro lados, lanzamiento próximo - 5 abril, 2026
Honor Magic9 llega en octubre para retar a Apple - 5 abril, 2026
DJI Osmo Pocket 4: primeras imágenes oficiales del embalaje y especificaciones confirmadas - 5 abril, 2026

Huawei lanza las potentes Smart TV Vision 5 Pro de 65 a 85 pulgadas desde 870 € »

« Huawei MatePad mini llega con pantalla de 8,8” y precio competitivo desde 430 €

Tags: xiaomi tts zero shotzipformer arquitectura aizipvoice sintetis de voz

Eduardo Ruiz: Amante de la tecnología, escribo para compartir una de las mayores aficiones que tengo y poder estar al día en el aspecto tecnológico.

Comentar

Xiaomi lanza actualización para su Wi-Fi 7 BE7000 con red exclusiva y firewall avanzado
Xiaomi ha lanzado una nueva actualización de firmware para su router Wi-Fi 7 BE7000, que…
Xiaomi lanza el ventilador de sobremesa portátil con batería de 18.5 horas y oscilación automática por 13€
El ventilador portátil de sobremesa Xiaomi Mijia se lanzó inicialmente con un precio de venta…
Xiaomi lanza su nueva maleta de apertura frontal en 18 y 20 pulgadas desde 53 euros
Xiaomi ha lanzado un nuevo modelo de maleta de viaje bajo su submarca Mijia, disponible…