Alibaba presenta Qwen3-Max-Thinking, su nuevo modelo de IA para razonamiento avanzado

Alibaba presenta Qwen3-Max-Thinking, su nuevo modelo de IA para razonamiento avanzado 2

Alibaba Cloud ha lanzado Qwen3-Max-Thinking, un modelo de inteligencia artificial que según la compañía destaca en tareas de razonamiento complejo. De acuerdo con la nota de prensa publicada en el blog de Qwen, este sistema supera a competidores como Gemini 3 Pro en varios benchmarks gracias a innovaciones en el uso de herramientas y escalado en tiempo de prueba. La fuente enfatiza que representa un avance significativo en el campo de la IA.

Qwen3-Max-Thinking llega con más de un trillón de parámetros

Según los datos facilitados por Alibaba, Qwen3-Max-Thinking ha sido entrenado escalando parámetros por encima del trillón y utilizando recursos computacionales masivos para aprendizaje por refuerzo. Esto ha permitido mejoras en conocimiento factual, razonamiento complejo y seguimiento de instrucciones, afirma la compañía. El modelo también se alinea mejor con preferencias humanas y capacidades de agente.

De acuerdo con la fuente, el entrenamiento se basó en 36 trillones de tokens de datos previos, lo que lo posiciona como uno de los más potentes del mercado. Comparado con líderes como GPT-5.2-Thinking o Claude Opus 4.5, muestra resultados competitivos en 19 benchmarks establecidos. Esta escala masiva es clave para su rendimiento superior, según el anuncio.

El uso adaptativo de herramientas marca la diferencia

Una de las innovaciones principales, según la nota de prensa, es el uso adaptativo de herramientas, donde el modelo selecciona automáticamente Search, Memory o Code Interpreter sin intervención manual del usuario. La compañía destaca que esto mejora drásticamente la experiencia, eliminando la necesidad de elegir herramientas previamente. Es un paso adelante respecto a enfoques anteriores.

De acuerdo con Alibaba, el entrenamiento extenso en tareas diversas con feedback basado en reglas y modelos ha potenciado esta capacidad. En benchmarks como τ²-Bench, logra un puntaje de 82.1 en llamadas a funciones. Esto lo hace ideal para conversaciones complejas donde se requiere recuperación de información o ejecución de código en demanda.

Escalado en tiempo de prueba impulsa el razonamiento

La fuente explica que las técnicas de escalado en tiempo de prueba permiten al modelo realizar reflexión auto-multi-ronda, superando a Gemini 3 Pro en razonamiento crítico. Según los datos, esto activa un «pensamiento sistema 2» que genera ganancias masivas en tareas como matemáticas y codificación complejas. No se trata solo de tamaño, sino de pensar más tiempo antes de responder.

En pruebas específicas, Qwen3-Max-Thinking alcanza 98.0 en HMMT Feb para matemáticas complejas y 49.8 en HLE para búsqueda agentica, de acuerdo con la compañía. Otros resultados incluyen 92.8 en GPQA Diamond para preguntas científicas de nivel PhD y altos scores en IMO-AnswerBench. Estas cifras demuestran su fortaleza en razonamiento profundo.

Resultados destacados en benchmarks clave

Según el blog de Qwen, el modelo brilla en 19 benchmarks con performances comparables o superiores a rivales. Por ejemplo, en LiveCodeBench para codificación logra puntajes elevados, y en SWE-Bench para ingeniería de software real. La fuente subraya que con herramientas de búsqueda activas, supera a modelos como Claude 3.5 o GPT-4.2 en Humanity’s Last Exam con 58 puntos.

  • GPQA Diamond: 92.8, para ciencia avanzada.
  • IMO-AnswerBench: 91.5, matemáticas de secundaria superior.
  • AIME25 y HMMT: Hasta 100% de precisión en algunos casos.
  • HLE con agente: 49.8, destacando en búsqueda compleja.

Estos logros, atribuidos a la combinación de escala y técnicas innovadoras, posicionan a Qwen3-Max-Thinking como opción robusta para desarrolladores, según Alibaba.

Implicaciones para el ecosistema de IA actual

De acuerdo con analistas citados en coberturas relacionadas, este lanzamiento expande las opciones en IA empresarial al competir directamente con gigantes como Google y OpenAI. La compañía asegura compatibilidad con protocolos como Anthropic API, facilitando integración en herramientas como Claude Code. Esto podría acelerar adopción en startups y empresas.

La fuente enfatiza que el futuro pasa por modelos que no solo generen texto, sino que piensen, planifiquen y usen herramientas de forma autónoma. Entrenado con recursos de Alibaba Cloud, Qwen3-Max-Thinking ofrece eficiencia vía Mixture-of-Experts y soporta contextos largos hasta 1 millón de tokens. Su disponibilidad vía API lo hace accesible para aplicaciones reales.

Próximos pasos y accesibilidad del modelo

Según el anuncio, Qwen3-Max-Thinking ya está disponible para pruebas y despliegue, con modos como «Thinking Mode» para razonamiento paso a paso. La compañía invita a desarrolladores a explorar sus capacidades en el blog oficial. Esto incluye parámetros ajustables como thinking_budget para controlar profundidad.

En resumen, de acuerdo con Alibaba, este modelo representa un salto en IA razonadora, con énfasis en eficiencia y rendimiento práctico. Su lanzamiento el 25 de enero de 2026 refuerza la posición de China en la carrera global por la supremacía en inteligencia artificial, siempre según la fuente.

Fuente: https://qwen.ai/blog?id=qwen3-max-thinking


También podría ser de tu interés:

Deja un comentario