Авторлор:
(1) Ченгрун Янг, Google DeepMind жана бирдей салым; (2) Xuezhi Wang, Google DeepMind; (3) Yifeng Lu, Google DeepMind; (4) Hanxiao Liu, Google DeepMind; (5) Quoc V. Le, Google DeepMind; (6) Денни Чжоу, Google DeepMind; (7) Xinyun Chen, Google DeepMind жана бирдей салым.2 Opro: Llm оптимизатор катары жана 2.1 Llms тарабынан оптималдаштыруунун каалаган нерселери
3 Мотивациялоочу мисал: Математикалык оптималдаштыруу жана 3.1 Сызыктуу регрессия
3.2 Саякатчы сатуучу маселеси (TSP)
4 Колдонмо: Ыкчам оптималдаштыруу жана 4.1 Көйгөйдү орнотуу
5 Ыкчам оптималдаштыруу эксперименттери жана 5.1 баалоо орнотуу
5.4 Ыкчам оптималдаштырууда ашыкча талдоо жана 5.5 Evoprompt менен салыштыруу
7 Корутунду, Ыраазычылык жана Шилтемелер
B Scorer Llm үчүн чакыруу форматтары
C Meta-Prompts жана C.1 Meta-Prompt for Math Optimization
C.2 Тез оптималдаштыруу үчүн Мета-кошумча
D Калган Bbh милдеттери боюнча ыкчам оптималдаштыруу ийри сызыктары
E Bbh тапшырмаларын ыкчам оптималдаштыруу – Таблицаланган тактыктар жана табылган нускамалар
Ыкчам оптималдаштыруу. Мурунку иштер тапшырмага мүнөздүү үзгүлтүксүз векторлор катары берилген тездикти оптималдаштыруучу жумшак ыкчам тюнинг ыкмаларын иштеп чыккан (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021), ошондой эле градиент менен жетектелген издөө аркылуу дискреттүү ыкчам оптималдаштырууну аткаруу катары (Шин ж.б., 2020; Вен ж.б., 2023; Гао ж.б., 2020; Чен ж.б., 2023d) жана бекемдөөчү окутуу (Ден ж.б., 2022; Чжан ж.б., 2023). LLMге API мүмкүнчүлүгү гана болгондо бул ыкмалар колдонулбай калат. Башка иштер градиентсиз ыкчам оптималдаштыруу үчүн түзөтүүгө негизделген ыкмаларды иштеп чыккан (Xu et al., 2022; Prasad et al., 2022), мында түзөтүү адам тарабынан аныкталган операциялар менен (мисалы, эки фразаны алмаштыруу) жасалышы мүмкүн (Prasad et al. , 2022) же тил моделдери (мисалы, артка которуу) (Xu et al., 2022). Кээ бир акыркы иштер тез оптималдаштыруу үчүн LLMлерди изилдейт (Чжоу ж.б., 2022b; Pryzant et al., 2023; Xu et al., 2023). Тактап айтканда, APE (Zhou et al., 2022b) адегенде LLMди баштапкы нускамаларды түзүү үчүн колдонот. Андан кийин, APE эң жогорку тактык менен эң жогорку нускамаларды тандап алат, андан кийин ар бир инструкция менен LLMге баштапкы нускаманын семантикалык жактан окшош вариантын түзүүнү сунуштайт. APO (Pryzant et al., 2023) ар бир кадамда LLMге эски инструкцияны кантип жаңыртуу керектиги боюнча тексттик пикирди иштеп чыгууну тапшырат. Түзөтүүгө негизделген ыкмалардан айырмаланып, биздин ишибиздеги оптималдаштыруучу LLM ар бир оптималдаштыруу кадамында түз жаңы нускамаларды жаратат, ал эми оптималдаштыруучу LLM мурунку нускамаларды тууроо талап кылбастан, тапшырманын тактыгын жакшыртуу үчүн гана суралат. Чжоу жана башкалар менен салыштырганда. (2022b) жана Pryzant et al. (2023), биздин оптималдаштыруу процессибиз өткөн генерацияланган нускамаларды алардын упайлары менен мета-процессте камтыйт, бул оптимизатор LLMге жогорку сапаттагы нускамалардын жалпы үлгүлөрүн табууга мүмкүндүк берет.
Табигый тилде пикир билдирүү. Акыркы иш линиясы LLMдин натыйжалуулугун жакшыртууга болгон ыкмаларды изилдеп, табигый тилде кайра карап чыгууну сунуштоо менен, зыяндуу LLM натыйжаларын кыскартууда натыйжалуулугун көрсөттү (Bai et al., 2022; Ganguli et al., 2023) ой жүгүртүү (Shinn et al., 2023; Madaan et al., 2023) жана код генерацияны аткаруу (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b), диалог колдонмолору (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023) жана башкалар (Kim et al., 2023; Wang et al., 2023). Тактап айтканда, Yuan et al. (2023) инстанция деңгээлиндеги пикирлердин жыйындысынан система деңгээлиндеги пикирлерди алуу үчүн адам үчүн циклде алкакты иштеп чыгат, ал андан кийин маалыматтарды тактоо үчүн колдонулат. Биздин ишибизде оптималдаштыруучу LLM тез арада оптималдаштыруу траекториясын колдонот, бул LLMден окшош упайлары бар чечимдердин арасында жалпы мүнөздөмөлөрдү жалпылоону кыйыр түрдө талап кылат. Биз келечектеги иш катары кийинчерээк оптималдаштыруу кадамдары үчүн түзүлгөн чечимдер боюнча ачык-айкын табигый тил пикирлерин киргизүүнү карайбыз.
Оптималдаштыруу үчүн тил моделдерин тюнинг. Мурунку кээ бир иштер эволюциялык алгоритмдерде мутация жана кроссовер операторлору катары өзүн алып жүрүү үчүн тилдин моделдерин тууралайт же тездетет. Мейерсон жана башкалар. (2023) сүрөт жана код түзүү сыяктуу тапшырмалар боюнча эволюциялык кайчылаштарды сунуштоо үчүн аз окулган үлгүлөрү бар тил моделдерин колдонот. Леман жана башкалар. (2022), кодун айырмалоочу генерация боюнча үйрөтүлгөн чоң тил модели мутация оператору катары колдонулат жана алар роботту симуляциялоо үчүн Sodarace доменинин иштешин жакшыртуу үчүн андан ары тактоо ыкмасын иштеп чыгышат. EvoPrompting (Chen et al., 2023a) нейрондук тармактын архитектурасын өнүктүрүү үчүн чоң тил моделдерин колдонот, мында алар эволюциялык издөөнү жумшак ыкчам тюнинг менен айкалыштырат. Оптималдаштыруу үчүн траекторияны алууга байланыштуу, OptFormer (Чен ж.б., 2022) гиперпараметрлерди оптималдаштыруу маалыматтарынын чоң коллекцияларына трансформатор моделин үйрөтөт. Башка жагынан алып караганда, биздин иш оптималдаштырууну кошумча окутуусуз эле сунуштоо аркылуу ишке ашырат.