Ahora puedes lograr que un modelo de lenguaje grande resuelva problemas matemáticos con mayor precisión si tus indicaciones incluyen una cadena de pensamiento: un ejemplo que resuelve un problema similar a través de una serie de pasos de razonamiento intermedios. Un nuevo enfoque para este tipo de indicaciones mejoró la precisión de ChatGPT en una variedad de problemas de razonamiento.
Los autores incitaron al modelo con un problema y le instruyeron a «pensar paso a paso» mientras generaba una solución, y registraron la entrada y la salida.Cuando la solución del modelo no coincidía con la solución en el conjunto de datos, los autores instruyeron al modelo a intentarlo nuevamente utilizando indicaciones como «La respuesta no es correcta, ¿puedes pensar con más cuidado y darme la respuesta final?» Repitieron este paso hasta que el modelo entregara la solución correcta.Una vez que el modelo había resuelto un problema correctamente, los autores lo incitaron a presentar la respuesta nuevamente junto con los pasos que llevaron a ella. Esta salida generalmente representaba la cadena de pensamiento de manera más concisa que las respuestas iniciales correctas del modelo. Almacenaron el problema, la cadena de pensamiento y la solución en una base de datos.En el momento de la inferencia, al incitar al modelo a resolver un problema, los autores incluyeron en la indicación entre cuatro y ocho entradas de la base de datos seleccionadas al azar.
Resultados: Los autores evaluaron su método en comparación con la creación manual y el auto-CoT. De los 11 conjuntos de datos, su método obtuvo los mejores resultados en 8. Por ejemplo, en problemas matemáticos de escuela primaria, ChatGPT inducido con su método logró una precisión del 73.6 por ciento; con indicaciones hechas a mano, logró una precisión del 69.3 por ciento, y con auto-CoT, logró una precisión del 71.4 por ciento. Su método tuvo un rendimiento inferior en dos conjuntos de datos de razonamiento de sentido común (76.8 por ciento frente a 77.1 por ciento y 69.3 por ciento frente a 71.1 por ciento). Tuvo un rendimiento inferior al auto-CoT en un conjunto de datos de razonamiento aritmético (91.9 por ciento frente a 92.5 por ciento).
Por qué es importante: Los modelos de lenguaje grandes tienen capacidades latentes poderosas que pueden activarse mediante indicaciones inteligentes. ChatGPT pudo resolver los problemas en la base de datos de los autores, pero solo después de varios intentos. Al incitarlo con ejemplos de sus propias soluciones correctas a estos problemas, aparentemente pudo resolver otros problemas igualmente difíciles sin necesidad de múltiples intentos.
Fuente: DeepLearning