Tác giả:
(1) Rafael Rafailo, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó; (2) Archit Sharma, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó; (3) Eric Mitchel, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó; (4) Stefano Ermon, CZ Biohub; (5) Christopher D. Manning, Đại học Stanford; (6) Chelsea Finn, Đại học Stanford.
Bảng liên kết
Tóm tắt và 1. Giới thiệu
2 Công trình liên quan
3 Phần mở đầu
4 Tối ưu hóa sở thích trực tiếp
5 Phân tích lý thuyết của DPO
6 Thí nghiệm
7 Thảo luận, Lời cảm ơn và Tài liệu tham khảo
Đóng góp của tác giả
Một phép suy diễn toán học
A.1 Đưa ra giá trị tối ưu của mục tiêu tối đa hóa phần thưởng bị ràng buộc bởi KL
A.2 Suy ra Mục tiêu DPO Theo Mô hình Bradley-Terry
A.3 Suy ra Mục tiêu DPO Theo Mô hình Plackett-Luce
A.4 Đạo hàm Gradient của Mục tiêu DPO và A.5 Chứng minh Bổ đề 1 và 2
A.6 Chứng minh Định lý 1
B Chi tiết triển khai DPO và siêu tham số
C Chi tiết thêm về Thiết lập thử nghiệm và C.1 Chi tiết về thử nghiệm tình cảm IMDb và cơ sở
C.2 GPT-4 nhắc nhở để tính toán tóm tắt và tỷ lệ thắng cuộc đối thoại
C.3 Đường cơ sở không chắc chắn
D Kết quả thực nghiệm bổ sung
D.1 Hiệu suất của đường cơ sở N tốt nhất cho nhiều phản hồi mẫu và đánh giá GPT-4 khác nhau
D.3 Chi tiết nghiên cứu trên người
2 Công trình liên quan
Các mô hình ngôn ngữ tự giám sát có quy mô tăng dần học cách hoàn thành một số nhiệm vụ không cần thực hiện [31] hoặc với lời nhắc ít lần [6, 25, 11]. Tuy nhiên, hiệu suất của chúng đối với các nhiệm vụ hạ lưu và sự phù hợp với ý định của người dùng có thể được cải thiện đáng kể bằng cách tinh chỉnh trên các tập dữ liệu hướng dẫn và hoàn thành do con người viết [23, 36, 13, 39]. Quy trình 'điều chỉnh hướng dẫn' này cho phép LLM tổng quát hóa thành các hướng dẫn bên ngoài tập điều chỉnh hướng dẫn và thường tăng khả năng sử dụng của chúng [13]. Bất chấp sự thành công của việc điều chỉnh hướng dẫn, các đánh giá tương đối của con người về chất lượng phản hồi thường dễ thu thập hơn so với các bản trình diễn của chuyên gia và do đó các tác phẩm tiếp theo đã tinh chỉnh LLM với các tập dữ liệu về sở thích của con người, cải thiện khả năng dịch thuật [18], tóm tắt [38, 49], kể chuyện [49] và làm theo hướng dẫn [26, 32]. Các phương pháp này trước tiên tối ưu hóa hàm phần thưởng của mạng nơ-ron để tương thích với tập dữ liệu sở thích theo mô hình sở thích như mô hình Bradley-Terry [5], sau đó tinh chỉnh mô hình ngôn ngữ để tối đa hóa phần thưởng đã cho bằng các thuật toán học tăng cường, thường là REINFORCE [45], tối ưu hóa chính sách gần (PPO; [37]) hoặc các biến thể [32]. Một dòng công việc có liên quan chặt chẽ tận dụng LLM được tinh chỉnh để hướng dẫn theo phản hồi của con người để tạo ra dữ liệu sở thích tổng hợp bổ sung cho các thuộc tính mục tiêu như an toàn hoặc vô hại [2], chỉ sử dụng sự giám sát yếu từ con người dưới dạng tiêu chí đánh giá văn bản cho các chú thích của LLM. Các phương pháp này đại diện cho sự hội tụ của hai khối công việc: một khối công việc về đào tạo các mô hình ngôn ngữ bằng học tăng cường cho nhiều mục tiêu khác nhau [33, 27, 46] và một khối công việc khác về các phương pháp chung để học từ sở thích của con người [12, 19]. Mặc dù hấp dẫn khi sử dụng sở thích tương đối của con người, việc tinh chỉnh các mô hình ngôn ngữ lớn bằng học tăng cường vẫn là một thách thức thực tế lớn; công trình này cung cấp một cách tiếp cận có cơ sở lý thuyết để tối ưu hóa các sở thích tương đối mà không cần RL.
Bên ngoài bối cảnh ngôn ngữ, các chính sách học từ sở thích đã được nghiên cứu trong cả bối cảnh học tăng cường và học theo kiểu cướp, và một số phương pháp đã được đề xuất. Học theo kiểu cướp theo ngữ cảnh sử dụng sở thích hoặc thứ hạng hành động, thay vì phần thưởng, được gọi là cướp đấu tay đôi theo ngữ cảnh (CDB; [48, 14]). Trong trường hợp không có phần thưởng tuyệt đối, phân tích lý thuyết về CDB thay thế khái niệm về chính sách tối ưu bằng người chiến thắng von Neumann, một chính sách có tỷ lệ chiến thắng dự kiến so với bất kỳ chính sách nào khác ít nhất là 50% [14]. Tuy nhiên, trong bối cảnh CDB, nhãn sở thích được đưa ra trực tuyến, trong khi khi học từ sở thích của con người, chúng ta thường học từ một loạt cố định các cặp hành động được chú thích theo sở thích ngoại tuyến [47]. Tương tự như vậy, RL dựa trên sở thích (PbRL) học từ các sở thích nhị phân được tạo bởi một hàm 'ghi điểm' không xác định thay vì phần thưởng [9, 35]. Có nhiều thuật toán khác nhau cho PbRL, bao gồm các phương pháp có thể tái sử dụng dữ liệu sở thích ngoài chính sách, nhưng nhìn chung bao gồm việc đầu tiên ước tính rõ ràng hàm ghi điểm tiềm ẩn (tức là mô hình phần thưởng) và sau đó tối ưu hóa nó [16, 9, 12, 34, 19]. Thay vào đó, chúng tôi trình bày một phương pháp học chính sách một giai đoạn trực tiếp tối ưu hóa chính sách để đáp ứng sở thích.
Bài báo này theo giấy phép CC BY-NC-ND 4.0 DEED.