Xiaomi ha dado un paso más en el terreno de la inteligencia artificial y el procesamiento de audio con el lanzamiento oficial de MiDashengLM-7B, su modelo de gran capacidad para entender la voz, que ahora es completamente de código abierto. La firma china asegura que este desarrollo mejora sustancialmente tanto la velocidad como la precisión en tareas de reconocimiento de sonido. En concreto, reduce la latencia para la generación del primer token a una cuarta parte respecto a modelos similares y soporta una concurrencia veinte veces mayor bajo las mismas condiciones de VRAM. Además, MiDashengLM-7B ha establecido nuevos récords en 22 benchmarks públicos que evalúan modelos multimodales de audio.
Este modelo combina el codificador de audio Dasheng de Xiaomi con el decodificador autoregresivo Qwen2.5-Omni-7B Thinker, integrando una estrategia innovadora de entrenamiento universal para descripciones auditivas. Esto le permite entender de forma unificada tanto el habla, como sonidos ambientales y música. A principios de año, la base Dasheng logró un hito internacional al superar 50+ mAP en AudioSet, manteniéndose como referencia en el benchmark HEAR para tareas que abarcan desde sonidos naturales hasta el habla y la música.
Cómo Xiaomi está revolucionando el análisis de audio con MiDashengLM
Xiaomi ya ha llevado Dasheng a más de 30 aplicaciones prácticas, desde dispositivos para el hogar inteligente hasta sistemas en coches. Entre las innovaciones que implementan destacan la defensa ante palabras de activación externas en vehículos, la monitorización continua de sonidos anómalos en altavoces de smartphones o el control de dispositivos IoT mediante sonidos ambientales, como el chasquido de dedos. En el coche, Xiaomi ha potenciado el modo centinela para detectar intrusiones en el Xiaomi YU7, todo ello gracias a la inteligencia y eficiencia de los algoritmos que conforman Dasheng.
La transparencia es clave. El entrenamiento de MiDashengLM se ha realizado únicamente con conjuntos de datos 100% accesibles públicamente, y el modelo se distribuye bajo la licencia Apache 2.0, que permite usos tanto comerciales como académicos. Xiaomi se distingue también por la divulgación completa de las 77 fuentes de datos utilizadas y un informe técnico detallado que cubre todo el proceso, desde el preentrenamiento del codificador hasta el ajuste final de las instrucciones, algo que no es habitual en este sector.
Aplicaciones y futuro de MiDashengLM de Xiaomi
Dentro de la estrategia ‘personas, coche y hogar’ de Xiaomi, MiDashengLM juega un papel crucial en la comprensión auditiva multidominio. No solo reconoce sonidos cercanos, sino que también es capaz de inferir contextos para mejorar la adaptabilidad a diferentes escenarios. Esta capacidad abre la puerta a interacciones más naturales y útiles, por ejemplo, dando retroalimentación en tiempo real para mejorar la pronunciación o planes personalizados durante prácticas de canto o idiomas, o respondiendo a consultas del conductor sobre sonidos ambientales mientras conduce.
Además, MiDashengLM supone una evolución importante para la familia Dasheng, con un foco claro en aumentar la eficiencia computacional para permitir despliegues offline en dispositivos edge. Los planes de futuro prometen ampliar funcionalidades como la edición sonora completa basada en comandos naturales, algo que podría transformar la manera en que interactuamos con el audio en múltiples dispositivos.
El repositorio abierto de MiDashengLM ya está disponible para desarrolladores y la comunidad global, invitando a contribuir y avanzar en esta tecnología puntera de Xiaomi, que no solo amplía horizontes, sino que pone a la marca a la cabeza en modelos de audio multimodal y comprensión avanzada.
- Jmgo lanza su proyector O3 de tiro ultracorto con láser tricolor y VRR - 5 diciembre, 2025
- OnePlus Ace 6T llega con potente Snapdragon 8 Gen 5, batería de 8300mAh y carga rápida 100W - 5 diciembre, 2025
- Huawei Mate X7 revoluciona el mercado con arquitectura Xuanwu y cámara tope de gama a 1760€ - 5 diciembre, 2025