Xiaomi revoluciona la IA con MiDashengLM-7B, su nuevo modelo de voz que bate 22 récords de evaluación

imagen 20

Xiaomi ha dado un paso más en el terreno de la inteligencia artificial y el procesamiento de audio con el lanzamiento oficial de MiDashengLM-7B, su modelo de gran capacidad para entender la voz, que ahora es completamente de código abierto. La firma china asegura que este desarrollo mejora sustancialmente tanto la velocidad como la precisión en tareas de reconocimiento de sonido. En concreto, reduce la latencia para la generación del primer token a una cuarta parte respecto a modelos similares y soporta una concurrencia veinte veces mayor bajo las mismas condiciones de VRAM. Además, MiDashengLM-7B ha establecido nuevos récords en 22 benchmarks públicos que evalúan modelos multimodales de audio.

imagen post 60

Este modelo combina el codificador de audio Dasheng de Xiaomi con el decodificador autoregresivo Qwen2.5-Omni-7B Thinker, integrando una estrategia innovadora de entrenamiento universal para descripciones auditivas. Esto le permite entender de forma unificada tanto el habla, como sonidos ambientales y música. A principios de año, la base Dasheng logró un hito internacional al superar 50+ mAP en AudioSet, manteniéndose como referencia en el benchmark HEAR para tareas que abarcan desde sonidos naturales hasta el habla y la música.

imagen post 61

Cómo Xiaomi está revolucionando el análisis de audio con MiDashengLM

Xiaomi ya ha llevado Dasheng a más de 30 aplicaciones prácticas, desde dispositivos para el hogar inteligente hasta sistemas en coches. Entre las innovaciones que implementan destacan la defensa ante palabras de activación externas en vehículos, la monitorización continua de sonidos anómalos en altavoces de smartphones o el control de dispositivos IoT mediante sonidos ambientales, como el chasquido de dedos. En el coche, Xiaomi ha potenciado el modo centinela para detectar intrusiones en el Xiaomi YU7, todo ello gracias a la inteligencia y eficiencia de los algoritmos que conforman Dasheng.

La transparencia es clave. El entrenamiento de MiDashengLM se ha realizado únicamente con conjuntos de datos 100% accesibles públicamente, y el modelo se distribuye bajo la licencia Apache 2.0, que permite usos tanto comerciales como académicos. Xiaomi se distingue también por la divulgación completa de las 77 fuentes de datos utilizadas y un informe técnico detallado que cubre todo el proceso, desde el preentrenamiento del codificador hasta el ajuste final de las instrucciones, algo que no es habitual en este sector.

Aplicaciones y futuro de MiDashengLM de Xiaomi

Dentro de la estrategia ‘personas, coche y hogar’ de Xiaomi, MiDashengLM juega un papel crucial en la comprensión auditiva multidominio. No solo reconoce sonidos cercanos, sino que también es capaz de inferir contextos para mejorar la adaptabilidad a diferentes escenarios. Esta capacidad abre la puerta a interacciones más naturales y útiles, por ejemplo, dando retroalimentación en tiempo real para mejorar la pronunciación o planes personalizados durante prácticas de canto o idiomas, o respondiendo a consultas del conductor sobre sonidos ambientales mientras conduce.

Además, MiDashengLM supone una evolución importante para la familia Dasheng, con un foco claro en aumentar la eficiencia computacional para permitir despliegues offline en dispositivos edge. Los planes de futuro prometen ampliar funcionalidades como la edición sonora completa basada en comandos naturales, algo que podría transformar la manera en que interactuamos con el audio en múltiples dispositivos.

El repositorio abierto de MiDashengLM ya está disponible para desarrolladores y la comunidad global, invitando a contribuir y avanzar en esta tecnología puntera de Xiaomi, que no solo amplía horizontes, sino que pone a la marca a la cabeza en modelos de audio multimodal y comprensión avanzada.

Fuente

Eduardo Ruiz

Descubre más desde GizChina.es

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.

Descubre más desde GizChina.es

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo