著者:
(1)Chengrun Yang、Google DeepMindおよびEqualの貢献(2) Xuezhi Wang、Google DeepMind、 (3) Yifeng Lu、Google DeepMind。 (4) Hanxiao Liu、Google DeepMind。 (5)Quoc V. Le、Google DeepMind (6)デニー・ジョウ、Google DeepMind (7)Xinyun Chen、Google DeepMindおよびEqualの貢献。2 Opro: 最適化ツールとしての Llm と 2.1 Llms による最適化の望ましい点
4 アプリケーション: プロンプトの最適化と 4.1 問題の設定
5.4 プロンプト最適化におけるオーバーフィッティング分析と 5.5 Evoprompt との比較
C メタプロンプトと C.1 数学最適化のためのメタプロンプト
Bbh タスクの E プロンプト最適化 - 表形式の精度と見つかった指示
プロンプトの最適化。これまでの研究では、タスク固有の連続ベクトルとして表現されるプロンプトを最適化するソフトプロンプトチューニング手法 (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2021; Qin & Eisner, 2021) が開発されているほか、勾配誘導探索 (Shin et al., 2020; Wen et al., 2023; Gao et al., 2020; Chen et al., 2023d) や強化学習 (Deng et al., 2022; Zhang et al., 2023) による離散プロンプト最適化も実行されています。これらのアプローチは、LLM への API アクセスしかない場合には適用できません。他の研究では、勾配フリープロンプト最適化のための編集ベースのアプローチが設計されており (Xu et al., 2022; Prasad et al., 2022)、編集は人間が定義した操作 (例: 2 つのフレーズの交換) (Prasad et al., 2022) または言語モデル (例: 逆翻訳) (Xu et al., 2022) を使用して実行できます。最近のいくつかの研究では、プロンプト最適化のための LLM を調査しています (Zhou et al., 2022b; Pryzant et al., 2023; Xu et al., 2023)。具体的には、APE (Zhou et al., 2022b) は最初に LLM を使用して初期命令を生成します。その後、APE は最も精度の高い上位の命令を選択し、個々の命令で LLM にプロンプトして、初期命令の意味的に類似したバリアントを生成します。 APO (Pryzant et al., 2023) は各ステップで、古い命令を更新する方法に関するテキストフィードバックを生成するように LLM に指示します。編集ベースのアプローチとは異なり、私たちの研究におけるオプティマイザー LLM は各最適化ステップで直接新しい命令を生成し、オプティマイザー LLM には過去の命令を模倣する必要はなく、タスクの精度を向上させることだけが求められます。Zhou et al. (2022b) や Pryzant et al. (2023) と比較すると、私たちの最適化プロセスでは、過去に生成された命令とそのスコアをメタプロンプトに組み込むため、オプティマイザー LLM は高品質の命令の共通パターンを発見できます。
自然言語フィードバックによるプロンプト。最近の研究では、モデル出力を修正するために自然言語フィードバックによるプロンプトを出すことで LLM パフォーマンスを向上させるアプローチを調査しており、有害な LLM 出力の削減 (Bai et al., 2022; Ganguli et al., 2023)、推論の改善 (Shinn et al., 2023; Madaan et al., 2023)、コード生成パフォーマンスの改善 (Chen et al., 2023e; Olausson et al., 2023; Shinn et al., 2023; Chen et al., 2023b)、対話アプリケーションの改善 (Nair et al., 2023; Madaan et al., 2023; Yuan et al., 2023) などに効果があることが示されています (Kim et al., 2023; Wang et al., 2023)。具体的には、Yuan et al. (2023) は、インスタンスレベルのフィードバックのコレクションからシステムレベルのフィードバックを導き出すためのヒューマンインザループフレームワークを開発し、それをデータの精製に使用しています。私たちの研究では、オプティマイザー LLM はプロンプト内の最適化軌跡を利用します。これにより、LLM は暗黙的に、同様のスコアを持つソリューション間の共通の特性を要約する必要があります。将来の作業として、生成されたソリューションに明示的な自然言語フィードバックを組み込んで、後の最適化ステップに役立てることを検討しています。
最適化のための言語モデルの調整。これまでの研究では、言語モデルを調整または促して、進化的アルゴリズムで突然変異および交差演算子として動作するようにしています。Meyerson ら (2023) は、少数のショットの例を含む言語モデルを利用して、画像やコード生成などのタスクで進化的交差を提案しています。Lehman ら (2022) では、コード差分生成でトレーニングされた大規模な言語モデルが突然変異演算子として使用され、ロボットシミュレーションの Sodarace ドメインでのパフォーマンスを向上させるための微調整方法をさらに設計しています。EvoPrompting (Chen ら、2023a) は、大規模な言語モデルを使用してニューラルネットワークアーキテクチャを進化させ、進化的検索とソフトプロンプトチューニングを組み合わせています。最適化の入力として軌跡を取得することに関して、OptFormer (Chen ら、2022) は、ハイパーパラメータ最適化データの大規模なコレクションでトランスフォーマーモデルをトレーニングします。一方、私たちの研究では、追加のトレーニングなしでプロンプトのみで最適化を実行します。