Tabla de enlaces
Resumen e introducción
Diseño de conjunto de datos
Metodología de evaluación
Experimentos y análisis
Trabajo relacionado
Conclusión, reproducibilidad y referencias.
A. Lista completa de herramientas
B. Aviso de escenario
C. Consultas poco realistas
D. Matices al comparar trabajos anteriores
ABSTRACTO
Los modelos de lenguajes grandes (LLM) han mostrado mejoras masivas en las habilidades de razonamiento y toma de decisiones y pueden mantener conversaciones naturales con los usuarios. Muchos trabajos recientes buscan complementar los asistentes basados en LLM con herramientas externas para que puedan acceder a información privada o actualizada y realizar acciones en nombre de los usuarios. Para medir mejor el rendimiento de estos asistentes, este documento presenta ToolTalk, un punto de referencia que consiste en intenciones complejas del usuario que requieren el uso de herramientas de varios pasos especificado a través del diálogo. ToolTalk contiene 28 herramientas agrupadas en 7 complementos e incluye una implementación simulada completa de cada herramienta, lo que permite una evaluación totalmente automatizada de los asistentes que dependen de la retroalimentación de la ejecución. ToolTalk también enfatiza las herramientas que afectan externamente al mundo en lugar de solo herramientas para hacer referencia o buscar información. Evaluamos GPT-3.5 y GPT-4 en ToolTalk, lo que arroja tasas de éxito del 26 % y 50 % respectivamente. Nuestro análisis de los errores revela tres categorías principales y sugiere algunas direcciones futuras para mejorar. Lanzamos ToolTalk en //github.com/microsoft/ToolTalk.
1. INTRODUCCIÓN
Los modelos de lenguaje grande (LLM) pueden realizar hazañas impresionantes en la comprensión y generación del lenguaje natural y otras tareas que implican la manipulación de texto. Con los ajustes adecuados después del entrenamiento previo, pueden mantener conversaciones fluidas y naturales con los usuarios. Sin embargo, el alcance de tales conversaciones todavía está limitado porque los LLM carecen de acceso a conocimientos fuera de sus datos de capacitación, exhiben razonamiento matemático y habilidades computacionales limitadas y no pueden interactuar con el mundo exterior.
Para superar estas limitaciones, varios trabajos previos han propuesto integrar chatbots basados en LLM con la capacidad de utilizar herramientas como motores de búsqueda (Nakano et al., 2022), calculadoras o API web (Mialon et al., 2023). Lograr un progreso significativo en el uso de herramientas requiere puntos de referencia relevantes y conjuntos de datos de evaluación que puedan ejercitar plenamente estos sistemas con conversaciones realistas y desafiantes. En este artículo, presentamos ToolTalk como un paso hacia este objetivo. ToolTalk consta de 78 conversaciones con 178 turnos en total, que utilizan 28 herramientas únicas agrupadas en 7 categorías, junto con una metodología de evaluación diseñada para medir el uso preciso de las herramientas.
Varias consideraciones influyeron en nuestro diseño de ToolTalk para simular mejor las conversaciones típicas que un usuario podría desear tener con un asistente basado en LLM. Primero, queríamos asegurarnos de que ToolTalk sea conversacional y permita múltiples rondas de diálogo entre el usuario y el asistente para una única intención; lo que refleja cómo es posible que los usuarios no siempre deseen formular su solicitud completa en una sola expresión y pueden agregar calificadores adicionales o emitir correcciones después de recibir algunos comentarios del asistente. Esto nos permite incluir intenciones de usuario que requieren una serie compleja de invocaciones de herramientas sin tener expresiones anormalmente largas. En segundo lugar, incluimos un conjunto de llamadas a herramientas reales que deberían haberse realizado para cada expresión del usuario, adecuadas para su uso en una evaluación automatizada en comparación con las llamadas a herramientas predichas por un asistente. En tercer lugar, ToolTalk incluye implementaciones ejecutables de cada herramienta incluida en el conjunto de datos, para facilitar la evaluación de los asistentes que pueden considerar los resultados de invocaciones de herramientas anteriores para decidir cuáles hacer a continuación. En cuarto lugar, ToolTalk incluye herramientas destinadas a tener efectos secundarios (como enviar correos electrónicos o agregar o eliminar eventos del calendario), a las que nos referimos como "herramientas de acción", en lugar de solo realizar consultas en bases de datos (como buscar correos electrónicos que contengan una palabra clave en particular). ). Estas herramientas de acción son necesarias si el asistente quiere automatizar las tareas del usuario.
Adaptamos nuestra metodología de evaluación a los detalles del diseño de nuestro conjunto de datos, yendo más allá de las métricas comunes como la precisión de la coincidencia exacta. En particular, consideramos por separado las invocaciones de herramientas de acción y de no acción, considerando que las invocaciones incorrectas a herramientas de acción, como enviar un mensaje a la persona equivocada, pueden tener efectos particularmente negativos para el usuario. Por otro lado, si el asistente realiza invocaciones correctas de herramientas que no son de acción y algunas extrañas incorrectas, las extrañas aún pueden proporcionar información útil al usuario (incluso si no es lo que el usuario solicitó directamente). Como tal, utilizamos el recuerdo de invocación de herramientas y la tasa de acción incorrecta como métricas principales dentro de un solo turno de conversación, y definimos una noción de éxito a nivel de conversación.
Aplicamos ToolTalk en dos asistentes implementados utilizando el soporte de llamadas a funciones de la API de finalización de chat de OpenAI con los modelos GPT-3.5 y GPT-4. Descubrimos que gpt-3.5-turbo-0613 y gpt-4-0613 logran una tasa de éxito a nivel de conversación del 26% y 50% respectivamente, lo que demuestra que el uso de herramientas en un entorno conversacional sigue siendo una tarea difícil incluso para algunos de los más modelos de última generación. Luego realizamos análisis adicionales para determinar las razones por las cuales GPT-3.5 y GPT-4 fallan en las conversaciones. Descubrimos que tanto GPT-3.5 como GPT-4 pueden alucinar argumentos, no comprender la documentación e incluso afirmar abiertamente haber realizado una tarea sin recurrir a ninguna herramienta.
Nuestro artículo hace las siguientes contribuciones:
• Presentamos un conjunto de datos conversacionales para asistentes basados en LLM que utilizan herramientas, que contiene una amplia gama de herramientas y conversaciones de ejemplo con anotaciones reales sobre el terreno para invocaciones de herramientas que permiten una evaluación automatizada.
• Nos aseguramos de que el conjunto de datos contenga conversaciones de varios turnos que requieran el uso de múltiples herramientas, incluidas herramientas con efectos secundarios, para simular mejor cómo los usuarios pueden interactuar con un asistente que usa herramientas.
• Desarrollamos una metodología de evaluación que refleja las diferencias entre herramientas con efectos secundarios y herramientas sin ellos.
• Evaluamos asistentes creados con GPT-3.5 y GPT-4 utilizando nuestro conjunto de datos y analizamos sus errores, encontrando problemas como argumentos alucinados y documentación incomprendida.
Este documento está bajo licencia CC 4.0.