Упрощение обучения ИИ: прямая оптимизация предпочтений против традиционного обучения с подкреплением

к Writings, Papers and Blogs on Text Models3m2024/08/25

Слишком долго; Читать

В этом разделе рассматриваются существующие работы по тонкой настройке языковых моделей, с упором на такие методы, как настройка инструкций и обучение с подкреплением на основе предпочтений (RL). В то время как традиционные методы опираются на сложные алгоритмы RL, в этой статье представлен новый подход, прямая оптимизация предпочтений, который оптимизирует языковые модели, используя предпочтения человека напрямую, без необходимости обучения с подкреплением или моделирования вознаграждения. Это упрощает процесс и улучшает согласование модели с намерением человека в таких задачах, как перевод, реферирование и диалог.

featured image - Упрощение обучения ИИ: прямая оптимизация предпочтений против традиционного обучения с подкреплением

Авторы:

(1) Рафаэль Рафаило, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее; (2) Арчит Шарма, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее; (3) Эрик Митчел, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее; (4) Стефано Эрмон, CZ Biohub; (5) Кристофер Д. Мэннинг, Стэнфордский университет; (6) Челси Финн, Стэнфордский университет.

Таблица ссылок

Аннотация и 1. Введение

2 Связанные работы

3 отборочных

4 Прямая оптимизация предпочтений

5 Теоретический анализ DPO

6 Экспериментов

7 Обсуждение, благодарности и ссылки

Вклады авторов

Математические Выводы

A.1 Выведение оптимума для цели максимизации вознаграждения с ограничениями KL

A.2 Выведение цели DPO по модели Брэдли-Терри

A.3 Выведение цели DPO в соответствии с моделью Плакетта-Льюса

A.4 Вывод градиента цели DPO и A.5 Доказательство леммы 1 и 2

A.6 Доказательство теоремы 1

Детали реализации B DPO и гиперпараметры

C. Дополнительные сведения об экспериментальной установке и C.1 Эксперимент по настроению IMDb и базовые данные

C.2 Подсказки GPT-4 для вычисления коэффициентов резюмирования и выигрыша диалогов

C.3 Маловероятность исходного уровня

D Дополнительные эмпирические результаты

D.1 Эффективность базового уровня Best of N для различных N и D.2 Образцы ответов и суждения GPT-4

D.3 Подробности исследования на людях

2 Связанные работы

Самоконтролируемые языковые модели все большего масштаба учатся выполнять некоторые задачи с нуля [31] или с несколькими подсказками [6, 25, 11]. Однако их производительность в последующих задачах и соответствие намерениям пользователя можно значительно улучшить путем тонкой настройки на наборах данных инструкций и написанных человеком дополнений [23, 36, 13, 39]. Эта процедура «настройки инструкций» позволяет LLM обобщать инструкции за пределами набора настройки инструкций и в целом повышать их удобство использования [13]. Несмотря на успех настройки инструкций, относительные человеческие суждения о качестве ответа часто легче собрать, чем экспертные демонстрации, и, таким образом, последующие работы настроили LLM с помощью наборов данных человеческих предпочтений, улучшив мастерство перевода [18], реферирования [38, 49], рассказывания историй [49] и следования инструкциям [26, 32]. Эти методы сначала оптимизируют функцию вознаграждения нейронной сети для совместимости с набором данных предпочтений в рамках модели предпочтений, такой как модель Брэдли-Терри [5], затем настраивают языковую модель для максимизации заданного вознаграждения с использованием алгоритмов обучения с подкреплением, обычно REINFORCE [45], оптимизации проксимальной политики (PPO; [37]) или вариантов [32]. Тесно связанное направление работы использует LLM, настроенные на выполнение инструкций с обратной связью от человека, для генерации дополнительных синтетических данных о предпочтениях для целевых атрибутов, таких как безопасность или безвредность [2], используя только слабый надзор со стороны людей в форме текстовой рубрики для аннотаций LLM. Эти методы представляют собой конвергенцию двух групп работ: одна группа работ по обучению языковых моделей с подкреплением для различных целей [33, 27, 46] и другая группа работ по общим методам обучения на основе человеческих предпочтений [12, 19]. Несмотря на привлекательность использования относительных человеческих предпочтений, тонкая настройка больших языковых моделей с подкреплением остается серьезной практической проблемой; В данной работе представлен теоретически обоснованный подход к оптимизации относительных предпочтений без RL.

Вне контекста языка политика обучения на основе предпочтений изучалась как в условиях бандитского обучения, так и в условиях обучения с подкреплением, и было предложено несколько подходов. Контекстное бандитское обучение, использующее предпочтения или ранжирование действий, а не вознаграждения, известно как контекстный дуэльный бандит (CDB; [48, 14]). При отсутствии абсолютных вознаграждений теоретический анализ CDB заменяет понятие оптимальной политики победителем фон Неймана, политикой, ожидаемый процент побед против любой другой политики составляет не менее 50% [14]. Однако в условиях CDB метки предпочтений даются онлайн, в то время как при обучении на основе человеческих предпочтений мы обычно учимся на фиксированной партии офлайновых пар действий с аннотациями предпочтений [47]. Аналогично, основанное на предпочтениях RL (PbRL) учится на бинарных предпочтениях, сгенерированных неизвестной функцией «подсчета очков», а не на вознаграждениях [9, 35]. Существуют различные алгоритмы для PbRL, включая методы, которые могут повторно использовать данные о предпочтениях вне политики, но обычно включают в себя сначала явную оценку скрытой функции оценки (т. е. модели вознаграждения) и последующую ее оптимизацию [16, 9, 12, 34, 19]. Вместо этого мы представляем одноэтапный подход к обучению политике, который напрямую оптимизирует политику для удовлетворения предпочтений.

Данная статья по лицензии CC BY-NC-ND 4.0 DEED.