ChatGPT mejora su razonamiento

Ahora puedes lograr que un modelo de lenguaje grande resuelva problemas matemáticos con mayor precisión si tus indicaciones incluyen una cadena de pensamiento: un ejemplo que resuelve un problema similar a través de una serie de pasos de razonamiento intermedios. Un nuevo enfoque para este tipo de indicaciones mejoró la precisión de ChatGPT en una variedad de problemas de razonamiento.

  • Novedades: Jiashuo Sun y sus colegas de la Universidad de Xiamen, Microsoft y IDEA Research introdujeron el arranque iterativo en la indicación de cadenas de pensamiento, un método que lleva a un modelo de lenguaje grande a generar cadenas de pensamiento correctas para problemas difíciles, para que las use como guías para resolver otros problemas.
  • Idea clave: Los investigadores han desarrollado algunas formas de indicar a un modelo de lenguaje grande que aplique una cadena de pensamiento (CoT). El método típico es que un humano escriba un ejemplo de CoT para incluirlo en una indicación. Una forma más rápida es omitir el ejemplo hecho a mano y simplemente instruir al modelo a «pensar paso a paso», indicándole que genere no solo una solución, sino su propia CoT (esto se llama CoT de cero disparos). Para mejorar el CoT de cero disparos, otros trabajos tanto (i) pidieron a un modelo que «pensara paso a paso» como (ii) proporcionaron CoTs generadas (auto-CoT). La debilidad de este enfoque es que el modelo puede generar CoTs falsas y depender de ellas al responder a la indicación en cuestión, lo que puede llevar a respuestas incorrectas. Para resolver este problema, podemos tomar ejemplos de indicaciones de un conjunto de datos que incluye respuestas correctas, y el modelo puede verificar sus respuestas con las etiquetas del conjunto de datos. Si está equivocado, puede intentarlo repetidamente hasta que responda correctamente. De esta manera, genera ejemplos de CoT correctos para usar en la resolución de otros problemas.

  • Cómo funciona: Para inducir a ChatGPT a razonar de manera efectiva, los autores construyeron una base de datos de problemas de ejemplo, cadenas de pensamiento y soluciones. Eligieron problemas de 11 conjuntos de datos: seis conjuntos de datos de razonamiento aritmético (como problemas matemáticos de escuela primaria), cuatro conjuntos de datos de razonamiento de sentido común (por ejemplo, preguntas como «¿Usó Aristóteles una computadora portátil?») y un conjunto de datos de razonamiento simbólico que consistía en tareas que implicaban la manipulación de letras en palabras (por ejemplo, «Tome las últimas letras de las palabras en ‘Steve Sweeney’ y concaténelas»).
  • Los autores incitaron al modelo con un problema y le instruyeron a «pensar paso a paso» mientras generaba una solución, y registraron la entrada y la salida.Cuando la solución del modelo no coincidía con la solución en el conjunto de datos, los autores instruyeron al modelo a intentarlo nuevamente utilizando indicaciones como «La respuesta no es correcta, ¿puedes pensar con más cuidado y darme la respuesta final?» Repitieron este paso hasta que el modelo entregara la solución correcta.Una vez que el modelo había resuelto un problema correctamente, los autores lo incitaron a presentar la respuesta nuevamente junto con los pasos que llevaron a ella. Esta salida generalmente representaba la cadena de pensamiento de manera más concisa que las respuestas iniciales correctas del modelo. Almacenaron el problema, la cadena de pensamiento y la solución en una base de datos.En el momento de la inferencia, al incitar al modelo a resolver un problema, los autores incluyeron en la indicación entre cuatro y ocho entradas de la base de datos seleccionadas al azar.

    Resultados: Los autores evaluaron su método en comparación con la creación manual y el auto-CoT. De los 11 conjuntos de datos, su método obtuvo los mejores resultados en 8. Por ejemplo, en problemas matemáticos de escuela primaria, ChatGPT inducido con su método logró una precisión del 73.6 por ciento; con indicaciones hechas a mano, logró una precisión del 69.3 por ciento, y con auto-CoT, logró una precisión del 71.4 por ciento. Su método tuvo un rendimiento inferior en dos conjuntos de datos de razonamiento de sentido común (76.8 por ciento frente a 77.1 por ciento y 69.3 por ciento frente a 71.1 por ciento). Tuvo un rendimiento inferior al auto-CoT en un conjunto de datos de razonamiento aritmético (91.9 por ciento frente a 92.5 por ciento).

    Por qué es importante: Los modelos de lenguaje grandes tienen capacidades latentes poderosas que pueden activarse mediante indicaciones inteligentes. ChatGPT pudo resolver los problemas en la base de datos de los autores, pero solo después de varios intentos. Al incitarlo con ejemplos de sus propias soluciones correctas a estos problemas, aparentemente pudo resolver otros problemas igualmente difíciles sin necesidad de múltiples intentos.

    Fuente: DeepLearning