著者:
(1)ラファエル・ラファイロ、スタンフォード大家、一样の貢献;より若い著者は上述情况; (2)スタンフォード读书のアーチット・シャルマ氏と均等の貢献。さらに若い著者は先に挙げた。 (3)エリック・ミッチェル、スタンフォード学校、相同の貢献。さらに若手著者は上述。 (4)ステファノ・エルモン、CZバイオハブ(5)クリストファー・D・マニング、スタンフォード师范大学(6)チェルシー・フィン、スタンフォード社会
リンク一覧
要約と1. はじめに
2 関連研究
3 予備
4 直接的な嗜好最適化
5 DPOの理論的分析
6つの実験
7 議論、謝辞、参考文献
著者の貢献
数学题的導出
A.1 KL制約付き報酬最大化目標の最適値の導出
A.2 ブラッドリー・テリーモデルによるDPO目標の導出
A.3 プラケット・ルースモデルによるDPO目標の導出
A.4 DPO目的関数の勾配の導出とA.5 補題1と2の証明
A.6 定理1の証明
B DPO実装の詳細とハイパーパラメータ
C 実験設定の詳細とC.1 IMDb感情実験とベースラインの詳細
C.2 要約と対話勝率を計算するためのGPT-4プロンプト
C.3 可能性の低いベースライン
D 追加の実証結果
D.1 さまざまなNに対するBest of NベースラインのパフォーマンスとD.2 サンプル応答とGPT-4判定
D.3 ヒト研究の詳細
2 関連研究
規模の拡大する她教師あり言語モデルは、いくつかのタスクをゼロショット [31] または极少のプロンプト [6, 25, 11] で完成了することを学習します。ただし、龌龊タスクでのパフォーマンスとユーザーの意図との整和性は、指令と人間が書いた補完のデータセットを微調整することで大幅度に纠正できます [23, 36, 13, 39]。この「指令調整」手順により、LLM は指令調整セット外の指令に通常化でき、通常的に使いやすさが积极します [13]。指令調整の成功创业にもかかわらず、応答品質に関する人間の相対的な评断は、専門家のデモンストレーションよりも収集しやすい場合が多く、そのためその後の的学习では、人間の好みのデータセットを采用して LLM を微調整し、翻訳 [18]、要約 [38, 49]、ストーリーテリング [49]、および指令に従うこと [26, 32] の熟練度を积极させました。これらの步骤は、まず、Bradley-Terry モデル [5] などの選好モデルの下で、選好データセットとの互換性のためにニューラルネットワークの報酬関数を最適化し、次に、強物理習アルゴリズム、通常的には REINFORCE [45]、相似度高ポリシー最適化 (PPO; [37])、またはその変種 [32] を采用して、指定的された報酬を大化するように言語モデルを微調整します。密接に関連する一連の作業では、人間のフィードバックを伴う指令に従うように微調整された LLM を采取して、安全管理性や無害性などの対象攻击力に対する追加の组成選好データを转化します [2]。この作業では、LLM の注釈に対するテキスト ルーブリックの形で人間による弱い監督のみが采用されます。これらの步骤は、2 つの作業の収束を表しています。1 つは、さまざまな意图で強物理習を采用して言語モデルをトレーニングする作業 [33、27、46] であり、もう 1 つは人間の選好から学習する通常的な步骤に関する作業です [12、19]。相対的な人間の選好を采用することは品味的ですが、この的学习は、RL を采用せずに相対的な好みを最適化するための理論的に正规化されたアプローチを带来します。
言語の文脈除外では、嗜好からのポリシーの学習は、バンディット学習と強电学習の両方の設定で论述されており、いくつかのアプローチが议案されています。報酬ではなく、嗜好や行動のランキングを选择するコンテキストバンディット学習は、コンテキストデュエルバンディット(CDB; [48, 14])として知られています。絶対的な報酬がない場合、CDBの理論的定性分析では、最適なポリシーの说法をフォンノイマン勝者、つまり他のポリシーに対する期盼勝率が少なくとも50%であるポリシーに置き換えます[14]。ただし、CDB設定では、嗜好ラベルはオンラインで付与されますが、人間の嗜好から学習する場合、普通は、オフラインで嗜好が注釈付けされたアクションペアの固定位置バッチから学習します[47]。同様に、嗜好ベースRL(PbRL)は、報酬ではなく、末知の「スコアリング」関数によって导出されたバイナリ嗜好から学習します[9, 35]。 PbRLにはさまざまなアルゴリズムが普遍存在し、オフポリシーの好みデータを再利用率できる具体方法も含まれていますが、一般的的には、首先に风险的なスコアリング関数(つまり報酬モデル)を释明的に推定し、その後それを最適化する这个必要があります[16、9、12、34、19]。代わりに、好みを満たすようにポリシーを直接性最適化する単段階のポリシー学習アプローチを表明します。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下で。