Autores:
(1) Contribución de Chengrun Yang, Google DeepMind y Equal; (2) Xuezhi Wang, Google DeepMind; (3) Yifeng Lu, Google DeepMind; (4) Hanxiao Liu, Google DeepMind; (5) Quoc V. Le, Google DeepMind; (6) Denny Zhou, Google DeepMind; (7) Contribución de Xinyun Chen, Google DeepMind y Equal.2 Opro: Llm como optimizador y 2.1 Deseables de la optimización por Llms
3. Ejemplo motivador: optimización matemática y 3.1 regresión lineal
3.2 Problema del viajante de comercio (TSP)
4 Aplicación: Optimización rápida y 4.1 Configuración del problema
5. Experimentos de optimización rápida y 5.1 Configuración de evaluación
5.4 Análisis de sobreajuste en optimización rápida y 5.5 Comparación con Evoprompt
7 Conclusión, agradecimientos y referencias
B Formatos de indicaciones para el anotador Llm
Meta-prompts C y meta-prompts C.1 para optimización matemática
C.2 Meta-Prompt para la optimización de indicaciones
D Curvas de optimización rápidas en las tareas restantes de Bbh
Optimización de indicaciones. Trabajos anteriores han desarrollado métodos de ajuste de indicaciones suaves que optimizan las indicaciones representadas como vectores continuos específicos de la tarea (Lester et al., 2021; Li y Liang, 2021; Liu et al., 2021; Qin y Eisner, 2021), así como la optimización discreta de indicaciones mediante búsqueda guiada por gradientes (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) y aprendizaje de refuerzo (Deng et al., 2022; Zhang et al., 2023). Estos enfoques se vuelven inaplicables cuando solo hay acceso API al LLM. Otros trabajos diseñaron enfoques basados en edición para la optimización de indicaciones sin gradiente (Xu et al., 2022; Prasad et al., 2022), donde la edición se puede realizar con operaciones definidas por el hombre (por ejemplo, intercambiar dos frases) (Prasad et al., 2022) o modelos de lenguaje (por ejemplo, traducción inversa) (Xu et al., 2022). Algunos trabajos recientes investigan los LLM para la optimización de indicaciones (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Específicamente, APE (Zhou et al., 2022b) primero usa el LLM para generar instrucciones iniciales. Luego, APE selecciona las instrucciones superiores con las mayores precisiones, luego indica al LLM con cada instrucción individual para generar una variante semánticamente similar de la instrucción inicial. En cada paso, APO (Pryzant et al., 2023) le indica al LLM que produzca una retroalimentación de texto sobre cómo actualizar una instrucción anterior. A diferencia de los enfoques basados en edición, el LLM optimizador en nuestro trabajo genera directamente nuevas instrucciones en cada paso de optimización, y al LLM optimizador solo se le pide que mejore la precisión de la tarea sin que se le exija imitar instrucciones anteriores. En comparación con Zhou et al. (2022b) y Pryzant et al. (2023), nuestro proceso de optimización incorpora las instrucciones generadas anteriormente con sus puntajes en el metamensaje, lo que permite al LLM optimizador descubrir patrones comunes de instrucciones de alta calidad.
Incitación con retroalimentación en lenguaje natural. Una línea de trabajo reciente investiga enfoques para mejorar el rendimiento del LLM incitando con retroalimentación en lenguaje natural para revisar la salida del modelo, lo que ha demostrado ser eficaz para reducir las salidas LLM dañinas (Bai et al., 2022; Ganguli et al., 2023), mejorar el razonamiento (Shinn et al., 2023; Madaan et al., 2023) y el rendimiento de generación de código (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), aplicaciones de diálogo (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023), etc. (Kim et al., 2023; Wang et al., 2023). Específicamente, Yuan et al. (2023) desarrolla un marco de trabajo con intervención humana para derivar retroalimentación a nivel de sistema a partir de una colección de retroalimentación a nivel de instancia, que luego se utiliza para refinar los datos. En nuestro trabajo, el optimizador LLM utiliza la trayectoria de optimización en el mensaje, lo que implícitamente requiere que el LLM resuma las características comunes entre soluciones con puntajes similares. Consideramos la incorporación de retroalimentación explícita en lenguaje natural sobre las soluciones generadas para pasos de optimización posteriores como trabajo futuro.
Ajuste de modelos de lenguaje para optimización. Algunos trabajos previos ajustan o incitan modelos de lenguaje para que se comporten como operadores de mutación y cruce en algoritmos evolutivos. Meyerson et al. (2023) utiliza modelos de lenguaje con ejemplares de pocos disparos para proponer cruces evolutivos en tareas como la generación de imágenes y códigos. En Lehman et al. (2022), el modelo de lenguaje grande entrenado en la generación de diferencias de código se utiliza como operador de mutación, y además diseñan un método de ajuste fino para mejorar el rendimiento en el dominio Sodarace para la simulación de robots. EvoPrompting (Chen et al., 2023a) utiliza modelos de lenguaje grandes para desarrollar arquitecturas de redes neuronales, donde combinan la búsqueda evolutiva con el ajuste de indicaciones suaves. Con respecto a tomar la trayectoria como entrada para la optimización, OptFormer (Chen et al., 2022) entrena un modelo de transformador en grandes colecciones de datos de optimización de hiperparámetros. Por otro lado, nuestro trabajo realiza la optimización únicamente mediante indicaciones sin entrenamiento adicional.