Auteurs:
(1) Rafael Rafailo, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ; (2) Archit Sharma, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ; (3) Eric Mitchel, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ; (4) Stefano Ermon, CZ Biohub; (5) Christopher D. Manning, Université de Stanford; (6) Chelsea Finn, Université de Stanford.
Table des liens
Résumé et 1. Introduction
2 Travaux connexes
3 préliminaires
4 Optimisation des préférences directes
5 Analyse théorique du DPO
6 expériences
7 Discussion, remerciements et références
Contributions des auteurs
Une dérivation mathématique
A.1 Dérivation de l'optimum de l'objectif de maximisation de la récompense sous contrainte KL
A.2 Détermination de l'objectif du DPO selon le modèle Bradley-Terry
A.3 Dérivation de l'objectif du DPO selon le modèle Plackett-Luce
A.4 Dérivation du gradient de l'objectif DPO et A.5 Preuve des lemmes 1 et 2
A.6 Preuve du théorème 1
Détails de mise en œuvre et hyperparamètres de B DPO
C Plus de détails sur le dispositif expérimental et C.1 Expérience sur le sentiment IMDb et détails de base
C.2 Invites GPT-4 pour calculer les taux de synthèse et de gain de dialogue
C.3 Référence d'improbabilité
D Résultats empiriques supplémentaires
D.1 Performances de la meilleure base de référence N pour divers échantillons N et D.2 Réponses des échantillons et jugements GPT-4
D.3 Détails de l’étude humaine
2 Travaux connexes
Les modèles de langage auto-supervisés d'échelle croissante apprennent à accomplir certaines tâches sans intervention [31] ou avec des invites à intervention peu fréquente [6, 25, 11]. Cependant, leurs performances sur les tâches en aval et leur alignement avec l'intention de l'utilisateur peuvent être considérablement améliorés par un réglage fin sur des ensembles de données d'instructions et de complétions écrites par l'homme [23, 36, 13, 39]. Cette procédure de « réglage des instructions » permet aux LLM de généraliser à des instructions en dehors de l'ensemble de réglage des instructions et d'augmenter généralement leur utilisabilité [13]. Malgré le succès du réglage des instructions, les jugements humains relatifs de la qualité des réponses sont souvent plus faciles à recueillir que les démonstrations d'experts, et ainsi les travaux ultérieurs ont affiné les LLM avec des ensembles de données de préférences humaines, améliorant ainsi la maîtrise de la traduction [18], du résumé [38, 49], de la narration [49] et du suivi des instructions [26, 32]. Ces méthodes optimisent d'abord une fonction de récompense d'un réseau neuronal pour la compatibilité avec l'ensemble de données de préférences sous un modèle de préférence tel que le modèle Bradley-Terry [5], puis affinent un modèle de langage pour maximiser la récompense donnée en utilisant des algorithmes d'apprentissage par renforcement, généralement REINFORCE [45], l'optimisation de la politique proximale (PPO ; [37]), ou des variantes [32]. Un domaine de travail étroitement lié exploite les LLM affinés pour le suivi des instructions avec un retour d'information humain pour générer des données de préférence synthétiques supplémentaires pour des attributs ciblés tels que la sécurité ou l'innocuité [2], en utilisant uniquement une faible supervision humaine sous la forme d'une rubrique de texte pour les annotations du LLM. Ces méthodes représentent une convergence de deux corpus de travail : un corpus de travail sur la formation de modèles de langage avec l'apprentissage par renforcement pour une variété d'objectifs [33, 27, 46] et un autre corpus de travail sur les méthodes générales d'apprentissage à partir des préférences humaines [12, 19]. Malgré l'attrait de l'utilisation des préférences humaines relatives, le réglage fin de grands modèles de langage avec l'apprentissage par renforcement reste un défi pratique majeur ; ce travail fournit une approche théoriquement justifiée pour optimiser les préférences relatives sans RL.
En dehors du contexte du langage, les politiques d'apprentissage à partir des préférences ont été étudiées dans des contextes d'apprentissage par bandit et par renforcement, et plusieurs approches ont été proposées. L'apprentissage par bandit contextuel utilisant des préférences ou des classements d'actions, plutôt que des récompenses, est connu sous le nom de bandit de duel contextuel (CDB ; [48, 14]). En l'absence de récompenses absolues, l'analyse théorique des CDB remplace la notion de politique optimale par un gagnant de von Neumann, une politique dont le taux de victoire attendu contre toute autre politique est d'au moins 50 % [14]. Cependant, dans le cadre du CDB, les étiquettes de préférence sont données en ligne, tandis que dans l'apprentissage à partir des préférences humaines, nous apprenons généralement à partir d'un lot fixe de paires d'actions annotées par des préférences hors ligne [47]. De même, l'apprentissage par renforcement basé sur les préférences (PbRL) apprend à partir de préférences binaires générées par une fonction de « notation » inconnue plutôt que de récompenses [9, 35]. Il existe plusieurs algorithmes pour PbRL, notamment des méthodes qui peuvent réutiliser des données de préférences hors politique, mais qui impliquent généralement d'abord l'estimation explicite de la fonction de notation latente (c'est-à-dire le modèle de récompense) et son optimisation ultérieure [16, 9, 12, 34, 19]. Nous présentons plutôt une approche d'apprentissage de politique en une seule étape qui optimise directement une politique pour satisfaire les préférences.
Cet article est sous licence CC BY-NC-ND 4.0 DEED.