Xiaomi ha hecho su entrada triunfal en el competitivo mundo de los modelos de lenguaje de gran tamaño con el lanzamiento de MiMo-7B, su primera incursión en sistemas de inteligencia artificial de código abierto. Este modelo, desarrollado por el recién creado Big Model Core Team de la compañía, ha sido diseñado para sobresalir en tareas que requieren razonamiento complejo, mostrando un rendimiento superior en razonamiento matemático y generación de código en comparación con los líderes del sector como OpenAI y Alibaba.
El modelo MiMo-7B, que cuenta con 7.000 millones de parámetros, demuestra que puede operar eficazmente a pesar de ser más pequeño que la mayoría de los modelos líderes. Xiaomi afirma que sus capacidades de razonamiento rivalizan con las de modelos más grandes como el o1-mini de OpenAI y el Qwen-32B-Preview de Alibaba. Su entrenamiento se basa en un extenso conjunto de datos, compuesto por aproximadamente 200.000 millones de tokens de razonamiento y un total de 25 billones de tokens procesados en tres fases de entrenamiento distintas.
Un aspecto destacable del proceso de entrenamiento de MiMo-7B es el uso de un objetivo de predicción de múltiples tokens, en lugar del enfoque convencional de predicción del siguiente token, lo que, según Xiaomi, mejora la velocidad de inferencia sin comprometer la calidad de salida. La metodología post-entrenamiento de la compañía integra técnicas de aprendizaje por refuerzo y diversas mejoras en la infraestructura. Para abordar señales de recompensa escasas en tareas complejas, se ha adoptado un algoritmo llamado Test Difficulty Driven Reward. Además, se implementó una estrategia de muestreo de datos fácil para garantizar estabilidad en el entrenamiento.
Avances en la infraestructura de MiMo-7B
Desde el punto de vista de la infraestructura, Xiaomi ha desarrollado un sistema de Seamless Rollout que busca minimizar el tiempo de inactividad de las GPU durante los procesos de entrenamiento y validación. Gracias a estos avances, la empresa ha logrado un notable aumento de 2,29 veces en la velocidad de entrenamiento y casi el doble en el rendimiento de validación. Actualmente, hay cuatro versiones públicas distintas del modelo MiMo-7B: el modelo Base, la versión SFT, que está afinada con datos supervisados; el modelo RL-Zero, una variante aprendida por refuerzo que comienza desde el modelo base; y la versión RL, que se basa en SFT y promete la mayor precisión.
Xiaomi también ha compartido resultados en referencia a evaluaciones de rendimiento, indicando que la versión MiMo-7B-RL obtiene un 95,8% en el conjunto de datos MATH-500 y más del 68% en el conjunto AIME 2024. En pruebas de programación, alcanza un 57,8% en LiveCodeBench v5 y casi el 50% en la versión 6. Aunque su rendimiento en tareas de conocimiento general, como DROP, MMLU-Pro y GPQA se sitúa en los 50 y tantos, estos resultados son considerados muy buenos para un modelo de este tamaño.
Cabe destacar que MiMo-7B está disponible para el acceso público en Hugging Face bajo una licencia de código abierto, con documentación de soporte y puntos de control del modelo accesibles en GitHub.
- vivo X200 FE filtrado en renders espectaculares y todo sobre su chip Dimensity 9300+ - 18 junio, 2025
- Ulefone Armor 34 Pro sorprende con pantalla de 6,95” y proyector integrado además de 16GB RAM - 18 junio, 2025
- GameSir G7 Pro llega revolucionando el juego con joysticks TMR y descuento exclusivo - 18 junio, 2025
Descubre más desde GizChina.es
Suscríbete y recibe las últimas entradas en tu correo electrónico.