Los poderes de la IA fortalecen los lazos entre Microsoft y OpenAI

Lo nuevo: el gigante tecnológico confirmó los rumores de que está aumentando su inversión en el laboratorio de investigación que creó el modelo de lenguaje ChatGPT y otras innovaciones de IA.

Qué ocurrió: Microsoft no reveló detalles financieros, pero a principios de este mes fuentes anónimas del sitio web Semafor confirmaros que la compañía le daría a OpenAI 10 mil millones de $. A cambio, Microsoft recibiría el 75 por ciento de los ingresos de la empresa de investigación hasta que recupere la inversión, después de lo cual poseería el 49 por ciento de OpenAI. Microsoft comenzó su asociación con OpenAI con una inversión de $ 1 mil millones en 2019 y otros 2 mil millones de $ entre 2019 y 2023. En esos acuerdos, Microsoft fue el primero en comercializar los modelos de OpenAI y OpenAI obtuvo entonces acceso a los amplios recursos informáticos de Microsoft. 

  • Bajo el nuevo acuerdo, Microsoft planea integrar los modelos de OpenAI en sus productos empresariales y de consumo para lanzar nuevos productos basados ​​en la tecnología OpenAI
  • El servicio en la nube Azure de Microsoft permitirá a los desarrolladores crear productos personalizados utilizando futuros modelos OpenAI. Los usuarios de Azure actualmente tienen acceso a GPT-3.5, DALL-E 2 y al generador de código Codex. Microsoft anunció recientemente que Azure ofrecería ChatGPT.
  • Microsoft proporcionará infraestructura informática en la nube adicional a OpenAI para entrenar y ejecutar sus modelos. 
  • Las dos compañías continuarán cooperando para promover una IA segura y responsable.

Detrás de las noticias: a principios de este mes, el site de noticias sobre tecnología y negocios The Information informó que Microsoft planeaba lanzar una versión de su servicio de búsqueda Bing que usa ChatGPT para responder consultas, y que integraría ChatGPT en el conjunto de aplicaciones de productividad de Microsoft Office. Según los informes, el director ejecutivo de Google, Sundar Pichai, estaba tan atemorizado por el potencial de ChatGPT en las búsquedas web, que emitió una directiva para toda la empresa para responder con iniciativas impulsadas por IA, incluida la búsqueda mejorada por chatbot.

Por qué es importante: las inversiones en curso de Microsoft ayudan a validar el valor de mercado de las innovaciones de OpenAI (que algunos observadores han cuestionado ). El acuerdo también puede abrir un nuevo capítulo en la rivalidad de décadas entre Microsoft y Google, un capítulo impulsado completamente por la IA.

Estamos pensando: las demostraciones espectaculares de la tecnología de IA a menudo carecen de un camino claro hacia el uso comercial. En lo que respecta a ChatGPT, están seguros de que los usos prácticos están al caer.

ezgif.com-creador de gifs (28)-1
El Chatbot que respeta las reglas de Google

En medio de la especulación sobre la amenaza que representa el chatbot ChatGPT de OpenAI para el negocio de búsqueda de Google, un artículo muestra cómo el gigante de las búsquedas podría abordar la tendencia de tales modelos a producir diálogos ofensivos, incoherentes o falsos.

Novedades: Amelia Glaese y sus colegas de DeepMind, el hermano de Google, usaron comentarios humanos para capacitar a los clasificadores para que reconocieran cuándo un bot conversacional infringía las reglas de conducta y luego usaron los clasificadores para generar recompensas mientras capacitaban al bot conversacional Sparrow para que siguiera las reglas y buscara información que mejorara su salida. Para ser claros, Sparrow no es la respuesta de Google a ChatGPT; precedió a la oferta de OpenAI en varias semanas.

Información clave: dado un conjunto de reglas para la conversación, los humanos pueden interactuar con un chatbot, calificar sus respuestas para el cumplimiento de las reglas y descubrir casos de falla. Los clasificadores capacitados con los datos generados a través de tales interacciones pueden decirle al bot cuándo ha infringido una regla. Luego puede aprender a generar resultados que se ajusten a las reglas.

Cómo funciona: Sparrow comenzó con el modelo de lenguaje Chinchilla preentrenado de 70 mil millones de parámetros. Los autores lo prepararon para la conversación describiendo su función («Sparrow. . . hará todo lo posible para responder las preguntas del usuario»), la forma («respetuosa, educada e inclusiva») y las capacidades («Sparrow puede usar Google para obtener información externa»). conocimiento si es necesario”), seguido de una conversación de ejemplo. 

  • Los autores definieron 23 reglas para hacer que Sparrow sea útil, correcto e inofensivo. Por ejemplo, debe ceñirse al tema, evitar la repetición y evitar la información errónea. No debe usar estereotipos, expresar preferencias u opiniones, o pretender ser humano.
  • Durante una conversación, Sparrow podría optar por agregar una consulta de búsqueda web (ejecutada por un programa separado) y un resultado, y usarlos al generar su próxima respuesta. Una interfaz de chat mostró el resultado de la búsqueda junto con la respuesta de Sparrow como soporte para la respuesta.
  • El modelo generó una conversación que incluía varias respuestas en cada turno de conversación. Los anotadores humanos calificaron la mejor respuesta y observaron si era plausible, si Sparrow debería haber buscado en la web antes de generarla y, si lo había hecho, si el resultado de la búsqueda (500 caracteres que incluían un fragmento, presumiblemente el primero, devuelto por Google) apoyó la respuesta. 
  • Usaron las calificaciones para afinar un modelo de lenguaje Chinchilla separado que, dada una consulta, clasificó cuál de varias respuestas un interlocutor humano encontraría plausible y bien fundamentada.
  • Además, alentaron a los anotadores a llevar a Sparrow a romper una regla. Usaron las violaciones resultantes para afinar una Chinchilla diferente para clasificar qué regla rompió Sparrow, si alguna.
  • Los autores ajustaron Sparrow utilizando el aprendizaje por refuerzo para continuar un diálogo e incorporaron los comentarios de los clasificadores como su recompensa. Los diálogos eran una combinación de preguntas y respuestas de ELI5 , conversaciones entre los anotadores y versiones anteriores de Sparrow, y diálogos generados por versiones anteriores de Sparrow.

Resultados: los anotadores calificaron las continuaciones del diálogo de Sparrow como plausibles y respaldadas por evidencia el 78 por ciento de las veces; la línea de base Chinchilla logró el 61 por ciento. El modelo rompió las reglas durante el 8 por ciento de las conversaciones en las que los anotadores intentaron que rompiera una regla. La línea de fondo rompió las reglas el 20 por ciento de las veces. 

Sí, pero: a pesar de la capacidad de búsqueda y el ajuste fino, Sparrow ocasionalmente generó falsedades, no incorporó los resultados de la búsqueda en sus respuestas o generó respuestas fuera de tema. El ajuste fino amplificó cierto comportamiento no deseado. Por ejemplo, en una escala de sesgo en la que 1 significa que el modelo reforzó los estereotipos no deseados en cada respuesta, 0 significa que generó respuestas equilibradas y -1 significa que desafía los estereotipos en cada respuesta, Sparrow obtuvo 0,10 en el conjunto de datos Winogender  , mientras que Chinchilla logró 0.06.

Por qué es importante: la técnica conocida como aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), en la que los humanos clasifican los resultados potenciales y un algoritmo de aprendizaje por refuerzo recompensa al modelo por generar resultados similares a los que tienen una clasificación alta, está cobrando fuerza como solución a problemas persistentes. con grandes modelos de lenguaje. OpenAI adoptó este enfoque en el entrenamiento de ChatGPT, aunque aún no ha descrito en detalle el entrenamiento de ese modelo. Este trabajo separó la retroalimentación humana en reglas distintas, lo que hizo posible entrenar a los clasificadores para aplicarlas al chatbot. Este giro en RLHF parece prometedor, aunque los problemas fundamentales persisten. Con más refinamiento, puede permitir que Google iguale o supere los esfuerzos de OpenAI en esta área. 

Estamos pensando: entre los problemas persistentes de sesgo, la ofensa, la incorrección e incoherencia que se abordan mejor durante el entrenamiento previo versus el ajuste fino, es una cuestión que merece ser investigada.

DeepLearning