ZipVoice de Xiaomi AI Lab mejora la síntesis de voz zero-shot con nuevos modelos

imagen 103

Xiaomi Group AI Lab ha presentado la serie ZipVoice, un conjunto de modelos de texto a voz (TTS) desarrollados por su equipo Kaldi, basados en la arquitectura Flow Matching. La familia incluye dos variantes principales: ZipVoice, un modelo de síntesis de voz para un solo hablante en modo zero-shot, y ZipVoice-Dialog, diseñado para síntesis de voz conversacional en zero-shot. Esta serie ZipVoice supone un avance importante en eficiencia y rapidez, manteniendo una alta calidad en la generación de voz, lo que supone un salto en la síntesis de voz que Xiaomi ha logrado combinar con modelos más ligeros y optimizados.

ZipVoice se focaliza en resolver limitaciones comunes en los modelos TTS zero-shot actuales, como el gran tamaño de los parámetros y la lentitud en la síntesis. Este desarrollo reduce significativamente el peso del modelo y acelera el proceso de inferencia sin perder fidelidad en el resultado. Por su parte, ZipVoice-Dialog mejora la estabilidad y la velocidad de inferencia en contextos de diálogo, ofreciendo una solución pensada para aplicaciones que requieren una interacción rápida y natural en tiempo real.

imagen post 206

Arquitectura ZipVoice basada en Zipformer

Una característica destacada de ZipVoice es la integración de la arquitectura Zipformer, inicialmente creada para reconocimiento automático del habla (ASR) y ahora adaptada para TTS como red principal. Zipformer combina una estructura U-Net multiescala eficiente con procesamiento colaborativo de convolución y mecanismos de atención, reutilizando repetidamente los pesos de atención. Esto encaja perfectamente con las exigencias de la síntesis de voz, permitiendo construir un modelo eficaz y específico para la generación vocal automática.

imagen post 207

Comparado con modelos TTS basados en DiT con rendimiento parecido, ZipVoice reduce la cantidad de parámetros en un 63%, una optimización considerable que se refleja en un tamaño más compacto y una mayor velocidad. Tanto ZipVoice como ZipVoice-Distill mantienen métricas competitivas en varios benchmarks objetivos, como similitud del hablante (SIM-o), tasa de error de palabras (WER) y UTMOS, además de evaluaciones subjetivas como CMOS y SMOS. Esto los posiciona en la vanguardia del ámbito zero-shot, con una combinación de rapidez y precisión poco habitual.

Xiaomi destaca que la serie ZipVoice ofrece una mezcla equilibrada de bajo requerimiento paramétrico, aceleración en la inferencia y alta calidad vocal. ZipVoice-Dialog aparece como una solución innovadora para síntesis conversacional rápida y estable, especialmente pensada para aplicaciones ligeras que demandan procesamiento veloz y fiable. El desarrollo continúa, con optimizaciones previstas para ampliar el acceso a la síntesis de voz de calidad a menor coste. Además, han liberado el código y modelos ZipVoice junto con un dataset abierto de 6.800 horas, facilitando la investigación y despliegue práctico en esta área. La presentación oficial de ZipVoice está programada para ASRU 2025, mostrando el compromiso de Xiaomi con la comunidad científica y tecnológica.

Fuente

Eduardo Ruiz

Descubre más desde GizChina.es

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.

Descubre más desde GizChina.es

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo