paint-brush
随时的な嗜好最適化: 言語モデルは実は報酬モデルである に@textmodels
231 測定値

直接的な嗜好最適化: 言語モデルは実は報酬モデルである

長すぎる; 読むには

直接嗜好最適化 (DPO) は、言語モデルを人間の嗜好に合わせるための強化学習に代わる、よりシンプルで安定した代替手段を導入します。報酬モデリングや複雑なトレーニング手順の必要性を排除することで、DPO は、特に感情変調、要約、対話タスクにおいて、PPO ベースの RLHF などの既存の方法と同等かそれ以上のパフォーマンスを実現する効率的な微調整を提供します。
featured image - 直接的な嗜好最適化: 言語モデルは実は報酬モデルである
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)ラファエル・ラファイロ、スタンフォード师范大学、等级の貢献;より若い著者は上述; (2)スタンフォード院校のアーチット・シャルマ氏と同样的の貢献。さらに若い著者は先に挙げた。 (3)エリック・ミッチェル、スタンフォード高校、等级の貢献。さらに若手著者は所诉。 (4)ステファノ・エルモン、CZバイオハブ(5)クリストファー・D・マニング、スタンフォード高校(6)チェルシー・フィン、スタンフォード上大学

リンク一覧

要約と1. はじめに

2 関連研究

3 予備

4 直接的な嗜好最適化

5 DPOの理論的分析

6つの実験

7 議論、謝辞、参考文献

著者の貢献


数学思维的導出

A.1 KL制約付き報酬最大化目標の最適値の導出

A.2 ブラッドリー・テリーモデルによるDPO目標の導出

A.3 プラケット・ルースモデルによるDPO目標の導出

A.4 DPO目的関数の勾配の導出とA.5 補題1と2の証明

A.6 定理1の証明


B DPO実装の詳細とハイパーパラメータ


C 実験設定の詳細とC.1 IMDb感情実験とベースラインの詳細

C.2 要約と対話勝率を計算するためのGPT-4プロンプト

C.3 可能性の低いベースライン


D 追加の実証結果

D.1 さまざまなNに対するBest of NベースラインのパフォーマンスとD.2 サンプル応答とGPT-4判定

D.3 ヒト研究の詳細

抽象的な

大規模な教師なし言語モデル (LM) は、幅広い中国知識とある阶段の推論スキルを学習しますが、トレーニングが基本に教師なしであるため、その動作を正確に制御することは困難です。このような操縦性を獲得するための既存の工艺步骤では、モデル制成の相対的な品質の人間によるラベルを収集し、多くの場合、人間からのフィードバックによる強化工習 (RLHF) を用して、これらの好みに合わせて教師なし LM を微調整します。ただし、RLHF は複雑で不安定な手順であり、起初に人間の好みを产生する報酬モデルを適合させ、次に強化工習を用して大規模な教師なし LM を微調整し、元のモデルから大きくずれることなくこの推定報酬を明显化します。この論文では、RLHF の報酬モデルの新しいパラメーター化を紹介します。これにより、対応する最適なポリシーをクローズドフォームで提取できるようになり、標準的な RLHF 問題を単純な分類損失のみで解決できます。結果として得られるアルゴリズムは、随时嗜好最適化 (DPO) と呼ばれ、安定しており、高特性で、計算量も軽量であるため、微調整中に LM からサンプリングしたり、逐年なハイパーパラメータ調整を実行したりする重要がなくなります。私たちの実験では、DPO は LM を微調整して、既存の工艺步骤と一样かそれ综上所述に人間の好みに合わせることができることが示されています。特に、DPO による微調整は、時代の情绪を制御する能力素质において PPO ベースの RLHF を上回り、要約とシングルターンの対話における応答品質に匹敵するか、それを向前させる一边で、実装とトレーニングが逐年に簡素化されています。

1 はじめに

如此に大規模なデータセットでトレーニングされた大規模な教師なし言語モデル(LM)は、驚くべき工作程度を獲得します [11、7、40、8]。しかし、これらのモデルは、さまざまな目標、優先順位、スキルセットを持つ人間によって转为されたデータでトレーニングされています。これらの目標とスキルセットの三部は、模倣することが望ましくない場合があります。たとえば、AIコーディングアシスタントに普遍的なプログラミングミスを看待して校准してもらいたいと思うかもしれませんが、コードを转为する際には、トレーニングデータに来源于する(まれな或许性のある)高品質のコーディング工作程度にモデルを偏らせたいと考えます。同様に、言語モデルに、50%の人が信じている普遍的な誤解を認識させたいかもしれませんが、それに関するクエリの50%でこの誤解が真実であると主張することは絶対に望ましくありません。言い換えれば、如此に幅広い知識と工作程度からモデルの望ましい応答と動作を選択することは、健康でパフォーマンスが高く、制御或许なAIシステムを構築する上で如此に重要的です [26]。既存の技术では、強化学工业習(RL)を适用してLMを人間の好みに合わせて誘導するのが普遍的ですが、


図 1: DPO は強化学習を回避しながら人間の好みを最適化します。人間のフィードバックを使用して言語モデルを微調整する既存の方法は、最初にプロンプトと応答のペアに対する人間の好みのデータセットに報酬モデルを適合させ、次に RL を使用して学習した報酬を最大化するポリシーを見つけます。対照的に、DPO は、単純な分類目標で好みを最もよく満たすポリシーを直接最適化し、対応する最適なポリシーをクローズド フォームで抽出できる暗黙の報酬モデルを適合させます。


既存の做法で施用されている RL ベースの为的関数は、単純なバイナリクロスエントロピー为的関数で正確に最適化でき、好みの学習パイプラインを同比に簡素化できることを示します。


大まかに言えば、既存の最简单的技术は、人間が应急で役立つと感じる行動の種類を表す厳選された人間の好みのセットを用到して、望ましい行動を言語モデルに植え付けます。この好みの学習段階は、大規模なテキスト データセットに対する大規模な教師なし预先トレーニングの时候段階の後に発生します。好みの学習に対する最も可以的なアプローチは、人間による高品質の応答のデモンストレーションに対する教師ありの微調整ですが、最も成功的しているクラスの最简单的技术は、人間 (または AI) のフィードバックからの強生物学習です (RLHF/RLAIF; [12、2])。RLHF 最简单的技术は、報酬モデルを人間の好みのデータセットに適合させ、次に RL を用到して言語モデル ポリシーを最適化し、元のモデルから大きく離れることなく、高い報酬が割り当てられた応答を转为します。RLHF は優れた会話機能とコーディング機能を備えたモデルを转为しますが、RLHF パイプラインは教師あり学習よりもかなり複雑で、複数の LM をトレーニングし、トレーニングのループで LM ポリシーからサンプリングする必不可少があるため、かなりの計算コストがかかります。


本稿では、明确的な報酬モデリングや強无机化学習を实用せずに、言語モデルを真接性最適化して人間の好みに合わせる方式 を示します。本稿では、既存の RLHF アルゴリズム (KL ダイバージェンス制約による報酬较大化) と同じ重要性性を暗黙的に最適化するアルゴリズムである真接性選好最適化 (DPO) を建议しますが、実装が簡単でトレーニングも簡単です。直感的に、DPO 不断更新により、好まれる応答と好まれない応答の相対的な対数確率が増加しますが、動的な例ごとの重要性度重みが組み込まれているため、単純な確率比重要性性で発生するモデルの劣化を可以防止できます。既存のアルゴリズムと同様に、DPO は、特殊の報酬関数が経験的な選好データとどの层面一样しているかを測定する理論的な選好モデル (Bradley-Terry モデルなど) [5] に依存しています。ただし、既存の方式 では、選好モデルを实用して選好損失を定義し、報酬モデルをトレーニングしてから、学習した報酬モデルを最適化するポリシーをトレーニングしますが、DPO では変数の変更を实用して、ポリシーの関数として選好損失を真接性定義します。したがって、モデル応答に対する人間の好みのデータセットが与えられると、DPO は単純なバイナリクロスエントロピー目標を实用してポリシーを最適化し、好みデータに適合する暗黙の報酬関数に最適なポリシーを生产することができます。


私たちの主な貢献は、好みから言語モデルをトレーニングするための単純な RL フリー アルゴリズムである Direct Preference Optimization (DPO) です。私たちの実験では、最主要 60 億のパラメータを持つ言語モデルを动用して、情感変調、要約、対話などのタスクで好みから学習する場合、DPO は PPO ベースの RLHF を含む既存の技巧と少なくとも一样的に効果的であることが示されています。


この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下で。


바카라사이트 바카라사이트 온라인바카라