Författare:
(1) Chengrun Yang, bidrag från Google DeepMind och Equal; (2) Xuezhi Wang, Google DeepMind; (3) Yifeng Lu, Google DeepMind; (4) Hanxiao Liu, Google DeepMind; (5) Quoc V. Le, Google DeepMind; (6) Denny Zhou, Google DeepMind; (7) Xinyun Chen, Google DeepMind och Equal-bidrag.2 Opro: Llm as the Optimizer och 2.1 Desirables of Optimization by Llms
3 Motiverande exempel: matematisk optimering och 3.1 linjär regression
3.2 Problem med resande säljare (TSP)
4 Applikation: Snabboptimering och 4.1 Probleminstallation
5 Snabboptimeringsexperiment och 5.1 Utvärderingsinställning
5.4 Överanpassningsanalys i promptoptimering och 5.5 jämförelse med Evoprompt
7 Slutsats, erkännanden och referenser
B Uppmaningsformat för Scorer Llm
C Meta-Prompts och C.1 Meta-Prompt för matematikoptimering
C.2 Meta-Prompt för snabb optimering
D Snabboptimeringskurvor för de återstående Bbh-uppgifterna
E Snabb optimering av Bbh-uppgifter – tabellerade noggrannheter och hittade instruktioner
Snabb optimering. Tidigare arbeten har utvecklat mjuka promptjusteringsmetoder som optimerar prompten som representeras som uppgiftsspecifika kontinuerliga vektorer (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021) som att utföra diskret snabboptimering genom gradientstyrd sökning (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) och förstärkningsinlärning (Deng et al., 2022; Zhang et al., 2023). Dessa tillvägagångssätt blir otillämpliga när det bara finns API-åtkomst till LLM. Andra verk utformade redigeringsbaserade metoder för gradientfri promptoptimering (Xu et al., 2022; Prasad et al., 2022), där redigeringen kan göras med mänskligt definierade operationer (t.ex. att byta två fraser) (Prasad et al. , 2022) eller språkmodeller (t.ex. bakåtöversättning) (Xu et al., 2022). Vissa nyare arbeten undersöker LLM:er för snabb optimering (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023). Specifikt använder APE (Zhou et al., 2022b) först LLM för att generera initiala instruktioner. Efteråt väljer APE toppinstruktioner med högsta noggrannhet, och uppmanar sedan LLM med varje enskild instruktion att generera en semantiskt liknande variant av den initiala instruktionen. APO (Pryzant et al., 2023) instruerar i varje steg LLM att producera textåterkoppling om hur man uppdaterar en gammal instruktion. Till skillnad från redigeringsbaserade tillvägagångssätt genererar optimeraren LLM i vårt arbete direkt nya instruktioner vid varje optimeringssteg, och optimeraren LLM uppmanas bara att förbättra uppgiftens noggrannhet utan att behöva imitera tidigare instruktioner. Jämfört med Zhou et al. (2022b) och Pryzant et al. (2023), införlivar vår optimeringsprocess de tidigare genererade instruktionerna med deras poäng i meta-prompten, vilket gör det möjligt för optimeraren LLM att upptäcka vanliga mönster av högkvalitativa instruktioner.
Uppmaning med återkoppling på naturligt språk. En nyligen genomförd arbetslinje undersöker tillvägagångssätt för att förbättra LLM-prestanda genom att uppmana med naturligt språkåterkoppling för att revidera modellutdata, vilket har visat sig vara effektivt för att minska skadliga LLM-utdata (Bai et al., 2022; Ganguli et al., 2023), vilket har förbättrat resonemang (Shinn et al., 2023; Madaan et al., 2023) och kodgenereringsprestanda (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), dialogapplikationer (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023) och så vidare (Kim et al., 2023; Wang et al., 2023). Specifikt har Yuan et al. (2023) utvecklar ett human-in-the-loop-ramverk för att härleda feedback på systemnivå från en samling feedback på instansnivå, som sedan används för att förfina data. I vårt arbete använder optimeraren LLM optimeringsbanan i prompten, vilket implicit kräver att LLM sammanfattar de gemensamma egenskaperna bland lösningar med liknande poäng. Vi överväger att införliva uttrycklig återkoppling på naturligt språk på genererade lösningar för senare optimeringssteg som framtida arbete.
Trimma språkmodeller för optimering. Vissa tidigare verk ställer in eller uppmanar språkmodeller att bete sig som mutations- och överkorsningsoperatorer i evolutionära algoritmer. Meyerson et al. (2023) använder språkmodeller med få-shot-exemplar för att föreslå evolutionära korsningar för uppgifter som bild- och kodgenerering. I Lehman et al. (2022) används den stora språkmodellen som tränats på koddiffgenerering som mutationsoperatör, och de designar vidare en finjusteringsmetod för att förbättra prestanda i Sodarace-domänen för robotsimulering. EvoPrompting (Chen et al., 2023a) använder stora språkmodeller för att utveckla neurala nätverksarkitekturer, där de kombinerar evolutionär sökning med mjuk promptjustering. När det gäller att ta banan som indata för optimering, tränar OptFormer (Chen et al., 2022) en transformatormodell på stora samlingar av hyperparameteroptimeringsdata. Å andra sidan utför vårt arbete optimering enbart genom uppmaning utan ytterligare utbildning.