OpenAI o1: LLM capacitado para realizar razonamiento lógico complejo / Sudo Null IT News

AbiertoAI han cambiado la dirección de desarrollo de sus modelos de lenguaje, de simplemente generar texto, su último modelo ha pasado a resolver problemas usando la lógica y el análisis paso a paso del problema.

Hasta ahora, los LLM han generado texto a partir de los datos utilizados en el proceso de formación. Los pesos del modelo almacenan una representación de las dependencias entre tokens de texto derivados del corpus de datos original. En consecuencia, el modelo simplemente genera los tokens más probables “de memoria”, pero no realiza ningún trabajo verdaderamente inteligente con su ayuda.

o1 es el modelo de razonamientoque divide un problema complejo en pasos intermedios, extrae conclusiones significativas de cada uno de ellos y, en última instancia, llega a una respuesta final. Hay dos ingredientes importantes en este proceso.

Primero, un mensaje que requiere que el modelo realice un razonamiento paso a paso, “Cadena de pensamientos” (Wei y otros, 2022). Se descubrió que la inferencia con un mensaje de este tipo mejora significativamente la capacidad del modelo para construir un razonamiento lógicamente correcto.

La diferencia entre un CoT y una indicación normal se puede ver en esta imagen: la respuesta de muestra proporciona un ejemplo de una cadena de razonamiento que el modelo puede usar para encontrar la respuesta correcta.

El segundo ingrediente es más complejo: el modelo está entrenado para generar sus propias cadenas de pensamientos. Al usar Aprendizaje por refuerzo – aprendizaje por refuerzo: el modelo se entrena para formar las cadenas más efectivas que conduzcan a la decisión correcta. Y este es un descubrimiento realmente importante que nos permite escalar modelos hacia razonamientos cada vez más complejos, tareas que requieren una lógica no trivial.

Es una pena que AbiertoAI no abrió el acceso a sus cadenas de razonamiento que opera o1. La razón oficial es que el razonamiento del modelo no está censurado para que no pierda eficiencia. Entonces el usuario ve solo un breve resumen y la respuesta final. Pero la razón principal por la que se ocultan las cadenas de pensamientos es la protección frente a los competidores, como se puede imaginar. Utilizando el mismo enfoque de aprendizaje por refuerzo y datos de línea de pensamiento, sería posible entrenar un modelo abierto para generarlos de la misma manera que lo hace o1.

Sin embargo, tarde o temprano esto sucederá de todos modos. Recientemente la empresa SambaNova publicó una demostración en AbrazosCara – Llama-3.1-Instrucción-O1. Como sugiere el nombre, utilizaron el modelo. Llama-3.1-Instrucciónconcretamente la versión 405B. El modelo funciona con un sistema complejo que le hace construir cadenas de pensamientos, que es similar a o1. Este experimento muestra resultados bastante buenos. Todo lo que queda es mejorar la capacidad de Llama u otro modelo abierto para generar sus propias cadenas de pensamientos mediante entrenamiento o ajuste.

Generar cadenas de pensamientos complejas requiere recursos importantes y, al elegir la potencia informática, hay que tener en cuenta cómo se enfrenta a cargas elevadas. Una solución es utilizar la cuantificación del modelo y tarjetas de video del servidor con alto rendimiento. En mis experimentos, pruebo diferentes plataformas en la nube, incluidas aquellas que ofrecen potentes tarjetas gráficas. Si estás interesado en los resultados que obtuve, puedes consultar mi análisis detallado en mi canal de YouTube, donde comparto mis experiencias con diferentes configuraciones.

La tasa de generación se vuelve especialmente importante para los modelos de razonamiento de tipo o1. La calidad de la respuesta aumenta en proporción al tiempo que el modelo dedica a pensar en el problema. Pero el usuario no puede esperar una respuesta durante horas, así, por ejemplo, SambaNova utilizó su propio chip de IA SN40L para su demostración, con el que lograron alcanzar una tasa de generación de 129 tokens por segundo. Otra startup muy conocida en el campo de los chips de IA que rompe el límite de velocidad de generación es Grok. Estas soluciones serán necesarias para la inferencia de modelos de lenguaje “pensantes”.