Un reciente artículo coescrito por investigadores de Xiaomi y la Universidad de Pekín ha sido publicado en arXiv, presentando un método innovador para mejorar la estabilidad durante el entrenamiento de modelos Mixture of Experts (MoE) mediante aprendizaje por refuerzo. Entre los autores correspondientes destaca Luo Fuli, conocida por su papel clave en DeepSeek-V2 y que, según diversas fuentes, habría sido reclutada por Xiaomi con un salario anual millonario en yuanes, aunque ninguna de las partes ha confirmado oficialmente su vinculación actual con la empresa. Luo es graduada en la Universidad Normal de Pekín y completó un máster en lingüística computacional en la Universidad de Pekín. Antes de unirse a DeepSeek en 2022, lideró el desarrollo del modelo multilingüe VECO en Alibaba DAMO Academy.

El trabajo introduce Rollout Routing Replay (R3), una técnica de entrenamiento concebida para solucionar la inestabilidad frecuente en el aprendizaje por refuerzo aplicado a arquitecturas MoE. Esta inestabilidad surge por la divergencia entre las distribuciones de encaminamiento durante las fases de entrenamiento e inferencia, lo que en muchos casos provoca la caída del entrenamiento. A diferencia de métodos previos que eliminaban datos atípicos para manejar este problema, R3 reduce esta divergencia capturando la distribución de rutas usada en inferencia y reproduciéndola durante el entrenamiento, lo que reduce de forma notable la divergencia de Kullback-Leibler (KL) sin sacrificar la velocidad de entrenamiento.

DeepSeek y la estabilidad en modelos Mixture of Experts
R3 es compatible tanto con el aprendizaje por refuerzo on-policy como con mini-batches off-policy. Su característica central es la caché del enrutador, que permite reutilizar eficientemente la información de encaminamiento para prefijos de tokens idénticos, integrándose de forma natural con la KVCache utilizada en tareas de diálogo multi-turn y agentes. Este avance resulta especialmente relevante en aplicaciones donde se producen múltiples interacciones repetidas, como asistentes de programación o navegadores web automatizados, al reducir la carga computacional y optimizar recursos.

La eficacia de R3 se validó en un modelo Qwen3-30B-A3B con 30.000 millones de parámetros. Los resultados mostraron que la divergencia KL entre entrenamiento e inferencia se redujo de 1.5×10⁻³ a 7.5×10⁻⁴, valores cercanos a los observados en modelos densos. En pruebas de razonamiento matemático, las versiones mejoradas con R3 superaron consistentemente a algoritmos de aprendizaje por refuerzo estándar como GRPO y TIS, incluso con ventajas de más de nueve puntos en algunos casos. Por otro lado, los métodos sin R3 sufrieron colapsos frecuentes en el entrenamiento, mientras que todas las configuraciones con R3 mantuvieron la estabilidad.

Además de mejorar la estabilidad y el rendimiento, R3 optimiza el comportamiento del modelo mostrando normas de gradiente más suaves, incrementos anticipados en la entropía que indican mejor exploración y una progresión más estable en la longitud de las secuencias durante el entrenamiento. Los intentos de combinar R3 con otras correcciones, como TIS, no mostraron mejoras adicionales, lo que sugiere que R3 por sí solo es capaz de corregir las discrepancias en el direccionamiento de manera efectiva.

Los modelos MoE siguen siendo clave para escalar modelos de lenguaje, activando subconjuntos escasos de expertos por token, aunque su sensibilidad en el entrenamiento plantea desafíos importantes. La metodología propuesta en este estudio, que alinea las decisiones de enrutamiento entre entrenamiento e inferencia sin bloquear el flujo de gradientes, abre un camino prometedor hacia un aprendizaje por refuerzo para MoE más robusto y eficiente. Este avance podría marcar tendencias futuras en la investigación y desarrollo de modelos a gran escala.

La contribución de DeepSeek se consolida con R3 como una solución efectiva para estabilizar modelos MoE complejos, facilitando la ampliación y aplicación práctica de estos sistemas en entornos reales y de alta demanda computacional. Con estos progresos, la comunidad científica tiene a su alcance una herramienta valiosa para avanzar en el diseño de modelos de lenguaje más potentes y fiables, cimentando la base para próximas innovaciones tecnológicas.

- OnePlus Pad Go 2 revelado con potente MediaTek Dimensity 7300 y pantalla LCD 2.8K de 12 pulgadas - 5 diciembre, 2025
- Antigravity revoluciona el sector con la primera dron panorámico de YingShi, Liu Jingkang confirma retos superados y satisfacción - 5 diciembre, 2025
- Xiaomi 17 Ultra filtrado en una foto real aunque sin mostrar la apariencia real - 5 diciembre, 2025
Descubre más desde GizChina.es
Suscríbete y recibe las últimas entradas en tu correo electrónico.
