ZipVoice de Xiaomi AI Lab mejora la síntesis de voz zero-shot con nuevos modelos

Eduardo Ruiz 12 septiembre, 2025

Xiaomi Group AI Lab ha presentado la serie ZipVoice, un conjunto de modelos de texto a voz (TTS) desarrollados por su equipo Kaldi, basados en la arquitectura Flow Matching. La familia incluye dos variantes principales: ZipVoice, un modelo de síntesis de voz para un solo hablante en modo zero-shot, y ZipVoice-Dialog, diseñado para síntesis de voz conversacional en zero-shot. Esta serie ZipVoice supone un avance importante en eficiencia y rapidez, manteniendo una alta calidad en la generación de voz, lo que supone un salto en la síntesis de voz que Xiaomi ha logrado combinar con modelos más ligeros y optimizados.

ZipVoice se focaliza en resolver limitaciones comunes en los modelos TTS zero-shot actuales, como el gran tamaño de los parámetros y la lentitud en la síntesis. Este desarrollo reduce significativamente el peso del modelo y acelera el proceso de inferencia sin perder fidelidad en el resultado. Por su parte, ZipVoice-Dialog mejora la estabilidad y la velocidad de inferencia en contextos de diálogo, ofreciendo una solución pensada para aplicaciones que requieren una interacción rápida y natural en tiempo real.

Arquitectura ZipVoice basada en Zipformer

Una característica destacada de ZipVoice es la integración de la arquitectura Zipformer, inicialmente creada para reconocimiento automático del habla (ASR) y ahora adaptada para TTS como red principal. Zipformer combina una estructura U-Net multiescala eficiente con procesamiento colaborativo de convolución y mecanismos de atención, reutilizando repetidamente los pesos de atención. Esto encaja perfectamente con las exigencias de la síntesis de voz, permitiendo construir un modelo eficaz y específico para la generación vocal automática.

Comparado con modelos TTS basados en DiT con rendimiento parecido, ZipVoice reduce la cantidad de parámetros en un 63%, una optimización considerable que se refleja en un tamaño más compacto y una mayor velocidad. Tanto ZipVoice como ZipVoice-Distill mantienen métricas competitivas en varios benchmarks objetivos, como similitud del hablante (SIM-o), tasa de error de palabras (WER) y UTMOS, además de evaluaciones subjetivas como CMOS y SMOS. Esto los posiciona en la vanguardia del ámbito zero-shot, con una combinación de rapidez y precisión poco habitual.

Xiaomi destaca que la serie ZipVoice ofrece una mezcla equilibrada de bajo requerimiento paramétrico, aceleración en la inferencia y alta calidad vocal. ZipVoice-Dialog aparece como una solución innovadora para síntesis conversacional rápida y estable, especialmente pensada para aplicaciones ligeras que demandan procesamiento veloz y fiable. El desarrollo continúa, con optimizaciones previstas para ampliar el acceso a la síntesis de voz de calidad a menor coste. Además, han liberado el código y modelos ZipVoice junto con un dataset abierto de 6.800 horas, facilitando la investigación y despliegue práctico en esta área. La presentación oficial de ZipVoice está programada para ASRU 2025, mostrando el compromiso de Xiaomi con la comunidad científica y tecnológica.

Fuente