저자:
(1) Rafael Rafailo, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자; (2) Archit Sharma, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자; (3) Eric Mitchel, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자; (4) Stefano Ermon, CZ Biohub; (5) 크리스토퍼 D. 매닝, 스탠포드 대학교; (6) 첼시 핀, 스탠포드 대학교.
링크 표
초록 및 1. 서론
2 관련 작업
3 예비
4 직접 선호도 최적화
5 DPO의 이론적 분석
6가지 실험
7 토론, 감사의 말 및 참고문헌
저자 기여
수학적 파생
A.1 KL 제약 보상 극대화 목표의 최적값 도출
A.2 Bradley-Terry 모델에 따른 DPO 목표 도출
A.3 Plackett-Luce 모델에 따른 DPO 목표 도출
A.4 DPO 목적함수의 기울기 도출 및 A.5 보조정리 1과 2의 증명
A.6 정리 1의 증명
B DPO 구현 세부 사항 및 하이퍼 매개변수
C 실험 설정에 대한 추가 세부 사항 및 C.1 IMDb 감정 실험 및 기준 세부 사항
C.2 요약 및 대화 승률 계산을 위한 GPT-4 프롬프트
C.3 가능성 낮음 기준선
D 추가 경험적 결과
D.1 다양한 N 및 D.2 샘플 응답 및 GPT-4 판단에 대한 Best of N 기준의 성능
D.3 인체 연구 세부 사항
2 관련 작업
점점 더 큰 규모의 자기 감독 언어 모델은 일부 작업을 제로샷[31] 또는 퓨어샷 프롬프트[6, 25, 11]로 완료하는 법을 배웁니다. 그러나 다운스트림 작업에서의 성능과 사용자 의도와의 일치는 지침과 인간이 쓴 완성의 데이터 세트를 미세 조정함으로써 상당히 개선될 수 있습니다[23, 36, 13, 39]. 이 '지침 조정' 절차를 통해 LLM은 지침 조정 세트 외부의 지침으로 일반화하고 일반적으로 사용성을 높일 수 있습니다[13]. 지침 조정의 성공에도 불구하고 응답 품질에 대한 상대적인 인간 판단은 전문가 시연보다 수집하기가 더 쉬운 경우가 많으므로 후속 작업에서는 인간 선호도의 데이터 세트로 LLM을 미세 조정하여 번역[18], 요약[38, 49], 스토리텔링[49] 및 지침 따르기[26, 32]의 능숙도를 개선했습니다. 이러한 방법은 먼저 Bradley-Terry 모델[5]과 같은 선호도 모델에 따른 선호도 데이터 세트와의 호환성을 위해 신경망 보상 함수를 최적화한 다음, 일반적으로 REINFORCE[45], 근위 정책 최적화(PPO; [37]) 또는 변형[32]과 같은 강화 학습 알고리즘을 사용하여 언어 모델을 미세 조정하여 주어진 보상을 최대화합니다.밀접하게 관련된 작업 라인은 인간의 피드백을 받아 지시를 따르도록 미세 조정된 LLM을 활용하여 안전성이나 무해성과 같은 대상 속성에 대한 추가 합성 선호도 데이터를 생성합니다[2].이러한 방법은 두 가지 작업의 융합을 나타냅니다.다양한 목표를 위해 강화 학습을 사용하여 언어 모델을 훈련하는 작업[33, 27, 46]과 인간의 선호도에서 학습하기 위한 일반적인 방법에 대한 작업[12, 19]입니다.상대적인 인간의 선호도를 사용하는 것이 매력적이기는 하지만, 강화 학습을 사용하여 대규모 언어 모델을 미세 조정하는 것은 여전히 주요한 실질적 과제로 남아 있습니다. 이 연구는 RL 없이 상대적 선호도를 최적화하는 이론적으로 정당화된 접근 방식을 제공합니다.
언어 맥락 밖에서 선호도에서 학습하는 정책은 밴딧과 강화 학습 설정 모두에서 연구되었으며, 여러 가지 접근 방식이 제안되었습니다. 보상이 아닌 선호도 또는 행동 순위를 사용하는 맥락적 밴딧 학습은 맥락적 결투 밴딧(CDB; [48, 14])으로 알려져 있습니다. 절대적 보상이 없는 경우 CDB의 이론적 분석은 최적 정책의 개념을 폰 노이만 승자로 대체합니다. 이 정책은 다른 모든 정책에 대한 예상 승률이 최소 50%입니다[14]. 그러나 CDB 설정에서 선호도 레이블은 온라인으로 제공되는 반면, 인간의 선호도에서 학습할 때는 일반적으로 오프라인 선호도 주석이 달린 고정된 배치의 행동 쌍에서 학습합니다[47]. 마찬가지로 선호도 기반 RL(PbRL)은 보상이 아닌 알려지지 않은 '점수' 함수에 의해 생성된 이진 선호도에서 학습합니다[9, 35]. PbRL을 위한 다양한 알고리즘이 존재하며 여기에는 정책 외 선호도 데이터를 재사용할 수 있는 방법이 포함되지만 일반적으로 먼저 잠재적 점수 함수(즉, 보상 모델)를 명시적으로 추정한 다음 최적화하는 것이 포함됩니다[16, 9, 12, 34, 19]. 대신 선호도를 충족시키기 위해 정책을 직접 최적화하는 단일 단계 정책 학습 접근 방식을 제시합니다.
이 논문은 CC BY-NC-ND 4.0 DEED 라이선스에 따라 있습니다.