DeepSeek presenta un modelo superior a GPT-4 y Claude Opus

Recientemente, el colectivo académico DeepSeek-AI ha lanzado el modelo de lenguaje de código abierto DeepSeek-Coder-V2, diseñado para competir con modelos comerciales líderes como GPT-4, Claude o Gemini en la generación de código. Este nuevo modelo promete revolucionar la manera en que los desarrolladores trabajan con el código.

DeepSeek-Coder-V2: Un modelo que supera a GPT-4 y Claude Opus

DeepSeek-Coder-V2 se basa en el modelo anterior, DeepSeek-V2, y ha sido entrenado adicionalmente con 6 billones de tokens de un corpus de múltiples fuentes de alta calidad. El modelo ahora soporta 338 lenguajes de programación, un incremento significativo desde los 86 lenguajes soportados anteriormente. Además, puede procesar contextos de hasta 128,000 tokens, una mejora considerable comparado con los 16,000 tokens anteriores.

El conjunto de datos de entrenamiento se compone de un 60% de código fuente, un 10% de datos matemáticos y un 30% de lenguaje natural. La porción de código incluye 1.17 billones de tokens de GitHub y CommonCrawl, mientras que la parte matemática contiene 221 mil millones de tokens de CommonCrawl.

Arquitectura y variantes del modelo

DeepSeek-Coder-V2 utiliza una arquitectura de mezcla de expertos y viene en dos variantes: el modelo de 16 mil millones de parámetros tiene solo 2.4 mil millones de parámetros activos, mientras que el modelo de 236 mil millones de parámetros tiene solo 21 mil millones activos. Ambas versiones han sido entrenadas en un total de 10.2 billones de tokens.

En los benchmarks como HumanEval o MBPP, DeepSeek-Coder-V2 puede competir con los mejores modelos comerciales, según DeepSeek-AI. La versión de 236 mil millones alcanzó un promedio del 75.3%, ligeramente menor que el 76.4% de GPT-4o, pero mejor que GPT-4 o Claude 3 Opus.

Rendimiento en benchmarks y disponibilidad

En los benchmarks matemáticos como GSM8K, MATH o AIME, DeepSeek-Coder-V2 está a la par con los modelos comerciales líderes. En tareas de lenguaje, su rendimiento es similar al de su predecesor, DeepSeek-V2. El modelo DeepSeek-Coder-V2 está disponible para su descarga en Hugging Face bajo una licencia de código abierto, y puede usarse tanto para fines de investigación como comerciales sin restricciones. También es accesible a través de una API.

Mejoras futuras

A pesar de los resultados impresionantes, los desarrolladores ven margen de mejora en la capacidad del modelo para seguir instrucciones, lo cual es crucial para manejar escenarios de programación complejos en el mundo real. DeepSeek-AI tiene la intención de trabajar en esta área en el futuro para mejorar aún más la eficiencia y la utilidad del modelo.

En resumen, DeepSeek-Coder-V2 representa un avance significativo en el campo de la generación de código, ofreciendo a los desarrolladores una herramienta poderosa y versátil que compite directamente con los gigantes comerciales del sector. Este modelo no solo democratiza el acceso a la tecnología avanzada, sino que también establece un nuevo estándar en la calidad y funcionalidad de los modelos de código abierto.

Fuente:https://the-decoder.com/deepseek-coder-v2-open-source-model-beats-gpt-4-and-claude-opus/


También podría ser de tu interés:

Deja un comentario