Deepseek de China lanza una nueva IA de código abierto después de que R1 se enfrentó a Operai


La compañía de desarrollo de inteligencia artificial china Deepseek ha lanzado un nuevo modelo de lenguaje grande (LLM) de peso abierto.

Deepseek subió su modelo más nuevo, Prover V2, al servicio de alojamiento que abraza la cara el 30 de abril. El último modelo, publicado bajo la licencia MIT de código abierto permisiva, tiene como objetivo abordar la verificación de la prueba matemática.

Deepseek-Prover-V2 Huggingface Repository. Fuente: Cara de abrazo

Prover V2 tiene 671 mil millones de parámetros, lo que lo hace significativamente más grande que sus predecesores, Prover V1 y Prover V1.5, que se lanzaron en agosto de 2024. El documento que acompaña a la primera versión explicó que el modelo fue capacitado para traducir problemas de competencia matemática en lógica formal utilizando el lenguaje de programación Lean 4, una herramienta ampliamente utilizada para provocar teoremas.

Los desarrolladores dicen que Prover V2 comprime el conocimiento matemático en un formato que le permite generar y verificar pruebas, potencialmente ayudando a la investigación y la educación.

Relacionado: He aquí por qué Deepseek estrelló tu bitcoin y cripto

¿Qué significa todo?

Un modelo, también conocido de manera informal e incorrecta como “pesas” en el espacio de IA, es el archivo o colección de archivos que permiten a uno ejecutar localmente una IA sin confiar en servidores externos. Aún así, vale la pena señalar que los LLM de vanguardia requieren hardware al que la mayoría de las personas no tienen acceso.

Esto se debe a que esos modelos tienden a tener un gran recuento de parámetros, lo que da como resultado archivos grandes que requieren mucha RAM o VRAM (memoria GPU) y potencia de procesamiento para ejecutarse. El nuevo modelo Prover V2 pesa aproximadamente 650 gigabytes y se espera que funcione desde RAM o VRAM.

Para llevarlos a este tamaño, los pesos de Prover V2 se han cuantificado hasta la precisión del punto flotante de 8 bits, lo que significa que cada parámetro se ha aproximado para tomar la mitad del espacio de los 16 bits habituales, con un poco de un solo dígito en números binarios. Esto efectivamente reduce a la mitad el volumen del modelo.

Prover V1 se basa en el modelo Deepseekmath de siete billones de parámetros y fue ajustado en datos sintéticos. Los datos sintéticos se refieren a los datos utilizados para capacitar a los modelos de IA que, a su vez, también generados por modelos de IA, con datos generados por humanos, generalmente se consideran una fuente cada vez más escasa de datos de mayor calidad.

Según los informes, Prover V1.5 mejoró en la versión anterior al optimizar tanto el entrenamiento como la ejecución y lograr una mayor precisión en los puntos de referencia. Hasta ahora, las mejoras introducidas por Prover V2 no están claras, ya que no se ha publicado ningún trabajo de investigación u otra información al momento de escribir.

El número de parámetros en los pesos de Prover V2 sugiere que es probable que se base en el modelo R1 anterior de la compañía. Cuando se lanzó por primera vez, R1 hizo olas en el espacio de IA con su rendimiento comparable al entonces modelo O1 de última generación.

Relacionado: Corea del Sur suspende las descargas de Deepseek sobre las preocupaciones de los datos del usuario

La importancia de los pesos abiertos

Liberar públicamente los pesos de LLM es un tema controvertido. Por un lado, es una fuerza democratizante que permite al público acceder a la IA en sus propios términos sin depender de la infraestructura de la empresa privada.

Por otro lado, significa que la empresa no puede intervenir y evitar el abuso del modelo al hacer cumplir ciertas limitaciones en consultas peligrosas de los usuarios. La liberación de R1 de esta manera planteó preocupaciones de seguridad, y algunos lo describieron como el “momento Sputnik” de China.

Los defensores de código abierto se regocijaron que Deepseek continuó donde Meta se fue con el lanzamiento de su serie de modelos de IA de código abierto, lo que demuestra que Open AI es un contendiente serio para la IA cerrada de OpenAi. La accesibilidad de esos modelos también continúa mejorando.

Modelos de idiomas accesibles

Ahora, incluso los usuarios sin acceso a una supercomputadora que cuesta más que el hogar promedio en gran parte del mundo puede ejecutar LLM localmente. Esto es principalmente gracias a dos técnicas de desarrollo de IA: destilación del modelo y cuantificación.

La destilación se refiere a capacitar a una red compacta de “alumno” para replicar el comportamiento de un modelo de “maestro” más grande, por lo que mantiene la mayor parte del rendimiento mientras reduce los parámetros para que sea accesible para un hardware menos potente. La cuantización consiste en reducir la precisión numérica de los pesos y activaciones de un modelo para reducir el tamaño y aumentar la velocidad de inferencia con solo una menor pérdida de precisión.

Un ejemplo es la reducción de Prover V2 de los números de puntos flotantes de 16 a ocho bits, pero son posibles reducciones adicionales a la mitad de los bits. Ambas técnicas tienen consecuencias para el rendimiento del modelo, pero generalmente dejan el modelo en gran medida funcional.

El R1 de Deepseek se destiló en versiones con modelos de LLAMA y QWEN que varían de 70 mil millones de parámetros a tan bajos como 1,5 mil millones de parámetros. El más pequeño de esos modelos incluso se puede ejecutar de manera confiable en algunos dispositivos móviles.

Revista: ‘Chernobyl’ necesitaba despertar a la gente a los riesgos de IA, Studio Ghibli Memes: AI Eye