En 2023, una pequeña pero poderosa empresa china llamada DeepSeek emergió como un actor disruptivo en el ámbito de la inteligencia artificial (IA) generativa. Su modelo R1, gratuito y de código abierto, demostró rendimientos que rivalizaban e incluso superaban los de la última versión de ChatGPT. A pesar de enfrentar restricciones en la adquisición de chips de última generación debido a embargos, el equipo de DeepSeek logró sacar adelante su innovador proyecto. Ahora, los creadores desvelan sus secretos en un artículo publicado en la revista ‘Nature’, donde destacan la clave de su éxito: la apuesta por el aprendizaje por refuerzo.
La Revolución de la IA Generativa
La inteligencia artificial generativa permite la creación de textos, imágenes, vídeos y audios basándose en instrucciones del usuario. Este tipo de IA se apoya principalmente en el aprendizaje profundo (deep learning), una metodología que ha revolucionado el sector en la última década al utilizar algoritmos para analizar enormes bases de datos en busca de patrones. La esencia de esta técnica radica en que la IA aprende a partir de los datos.
Históricamente, el aprendizaje automático se había desarrollado utilizando principalmente el aprendizaje supervisado, un método que implica procesar millones de textos y ajustar las respuestas manualmente. Sin embargo, el equipo de DeepSeek decidió abordar el problema de manera diferente al centrarse en el aprendizaje por refuerzo, un enfoque similar al que utiliza un niño para aprender a jugar un videojuego, a través de la prueba y error.
Aprendizaje por Refuerzo: La Clave del Éxito
La apuesta de DeepSeek por el aprendizaje por refuerzo se basa en incentivar las habilidades de razonamiento de los modelos de lenguaje sin depender de patrones predefinidos por humanos. “Demostramos que las habilidades de razonamiento de los grandes modelos de lenguaje (LLM, por su sigla en inglés) pueden ser estimuladas mediante técnicas de aprendizaje por refuerzo puro, evitando la necesidad de introducir guías de razonamiento etiquetadas por personas”, explican los autores del artículo.
Daphne Ippolito, profesora de Carnegie Mellon University y especialista en modelos de lenguaje natural, observa que el enfoque de DeepSeek permite a estos LLM aprender a razonar sin haber sido expuestos a ejemplos previos de razonamiento humano.
La Innovación en los Métodos
Los investigadores de DeepSeek concentraron sus esfuerzos en tareas donde podían establecer objetivos claros y recompensas numéricas. El modelo tenía la misión de lograr la mayor puntuación posible, aunque sin recibir instrucciones explícitas sobre cómo hacerlo. Esta metodología demostró ser efectiva, ya que el modelo superó a otros que se entrenaron a través del aprendizaje supervisado tradicional.
“Logramos un rendimiento superior en tareas verificables como matemáticas y competencia en programación, superando a los modelos entrenados convencionalmente con demostraciones humanas”, destaca Wenfeng Liang, miembro del equipo de IA de DeepSeek.
Sin embargo, debido a la falta de correcciones en las respuestas del modelo, a veces se producían resultados inesperados, como la mezcla de idiomas en un mismo texto. Para abordar esto, los investigadores decidieron incorporar elementos del aprendizaje supervisado, buscando un equilibrio entre generar respuestas correctas y comprensibles.
Un Enfoque Tan Eficiente como Innovador
La estrategia del equipo no solo tuvo éxito en términos de rendimiento, sino que también les permitió optimizar recursos. “Para que los LLM exhiban capacidades de razonamiento en la fase de pre-entrenamiento, se requiere una cantidad considerable de recursos computacionales”, señala el equipo de DeepSeek. Sin embargo, la innovación de utilizar ejemplos bien diseñados y prompts minimalistas contribuyó a mejorar estas capacidades.
Otra fórmula del éxito fue el uso del destilado de modelos de IA generativa, lo cual les permitió aprovechar tecnologías existentes y evitar el arduo trabajo de desarrollo desde cero. Esto significó un acceso a IA potente con un consumo energético reducido.
Un Futuro Prometedor para la IA
El equipo de DeepSeek sostiene que su trabajo en el aprendizaje por refuerzo podría “desbloquear niveles más avanzados de capacidades en los LLM, abriendo las puertas a modelos más autónomos y adaptables en el futuro”. Ippolito enfatiza que el estudio plantea preguntas importantes sobre la naturaleza del razonamiento en IA: “La pregunta de qué hace que un modelo razone bien es tanto filosófica como técnica. ¿Qué tipo de respuestas busca un usuario cuando formula preguntas complicadas a un sistema de IA? ¿Deberíamos preocuparnos si la forma de razonamiento es ininteligible, siempre que se llegue a una respuesta correcta?”
Conclusión
DeepSeek ha demostrado que con enfoques innovadores y una comprensión profunda de los procesos de aprendizaje, es posible crear tecnologías que no solo compitan con las de gigantes tecnológicos, sino que también desafíen las normas establecidas en la inteligencia artificial. Su modelo R1 no solo es un avance tecnológico, sino un punto de inflexión para la forma en que se desarrollan y utilizan los modelos de IA en todo el mundo.
Para más información sobre las últimas innovaciones y desarrollos en tecnología y ciencia, te invito a seguir explorando mi blog. ¡No te lo pierdas!