এআই প্রশিক্ষণকে সরলীকরণ করা: সরাসরি পছন্দ অপ্টিমাইজেশান বনাম ঐতিহ্যবাহী আরএল

দ্বারা Writings, Papers and Blogs on Text Models3m2024/08/25

অতিদীর্ঘ; পড়তে

এই বিভাগটি ফাইন-টিউনিং ল্যাঙ্গুয়েজ মডেলের বিদ্যমান কাজ পর্যালোচনা করে, নির্দেশনা টিউনিং এবং পছন্দ-ভিত্তিক রিইনফোর্সমেন্ট লার্নিং (RL) এর মতো পদ্ধতির উপর ফোকাস করে। যদিও ঐতিহ্যগত পদ্ধতিগুলি জটিল RL অ্যালগরিদমের উপর নির্ভর করে, এই কাগজটি একটি অভিনব পদ্ধতির প্রবর্তন করে, ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশান, যা সরাসরি মানুষের পছন্দগুলি ব্যবহার করে ভাষা মডেলগুলিকে অপ্টিমাইজ করে, শক্তিবৃদ্ধি শেখার বা পুরষ্কার মডেলিংয়ের প্রয়োজন ছাড়াই। এটি প্রক্রিয়াটিকে সহজ করে এবং অনুবাদ, সংক্ষিপ্তকরণ এবং সংলাপের মতো কাজ জুড়ে মানুষের অভিপ্রায়ের সাথে মডেল সারিবদ্ধকরণকে উন্নত করে।

featured image - এআই প্রশিক্ষণকে সরলীকরণ করা: সরাসরি পছন্দ অপ্টিমাইজেশান বনাম ঐতিহ্যবাহী আরএল

লেখক:

(1) রাফায়েল রাফাইলো, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক; (2) অর্চিত শর্মা, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক; (3) এরিক মিচেল, স্ট্যানফোর্ড বিশ্ববিদ্যালয় এবং সমান অবদান; আগে তালিকাভুক্ত আরও জুনিয়র লেখক; (4) Stefano Ermon, CZ Biohub; (5) ক্রিস্টোফার ডি. ম্যানিং, স্ট্যানফোর্ড বিশ্ববিদ্যালয়; (6) চেলসি ফিন, স্ট্যানফোর্ড বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

বিমূর্ত এবং 1. ভূমিকা

2 সম্পর্কিত কাজ

3 প্রাথমিক

4 সরাসরি পছন্দ অপ্টিমাইজেশান

ডিপিওর 5 তাত্ত্বিক বিশ্লেষণ

6 পরীক্ষা

7 আলোচনা, স্বীকৃতি, এবং রেফারেন্স

লেখক অবদান

একটি গাণিতিক উদ্ভব

A.1 KL- সীমাবদ্ধ পুরষ্কার সর্বাধিকীকরণ উদ্দেশ্যের সর্বোত্তম অর্জন করা

A.2 ব্র্যাডলি-টেরি মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা

A.3 প্লাকেট-লুস মডেলের অধীনে ডিপিও উদ্দেশ্য অর্জন করা

A.4 ডিপিও উদ্দেশ্যের গ্রেডিয়েন্ট বের করা এবং লেমা 1 এবং 2 এর A.5 প্রমাণ

A.6 উপপাদ্যের প্রমাণ 1

B DPO বাস্তবায়নের বিবরণ এবং হাইপারপ্যারামিটার

C পরীক্ষামূলক সেট-আপ এবং C.1 IMDb সেন্টিমেন্ট পরীক্ষা এবং বেসলাইন বিশদ সম্পর্কিত আরও বিশদ

C.2 GPT-4 কম্পিউটিং সারসংক্ষেপ এবং সংলাপ জয়ের হারের জন্য অনুরোধ করে

C.3 অসম্ভাব্য বেসলাইন

D অতিরিক্ত অভিজ্ঞতামূলক ফলাফল

D.1 বিভিন্ন N এবং D.2 নমুনা প্রতিক্রিয়া এবং GPT-4 বিচারের জন্য N বেসলাইনের সেরা পারফরম্যান্স

D.3 মানব অধ্যয়নের বিবরণ

2 সম্পর্কিত কাজ

ক্রমবর্ধমান স্কেলের স্ব-তত্ত্বাবধান করা ভাষা মডেলগুলি কিছু কাজ জিরো-শট [৩১] বা কয়েকটি শট প্রম্পট সহ সম্পূর্ণ করতে শেখে [6, 25, 11]। যাইহোক, ডাউনস্ট্রিম কাজগুলিতে তাদের কর্মক্ষমতা এবং ব্যবহারকারীর অভিপ্রায়ের সাথে সারিবদ্ধকরণ নির্দেশাবলী এবং মানবলিখিত সমাপ্তির ডেটাসেটগুলিতে সূক্ষ্ম-টিউনিং দ্বারা উল্লেখযোগ্যভাবে উন্নত করা যেতে পারে [23, 36, 13, 39]। এই 'নির্দেশ-টিউনিং' পদ্ধতিটি LLM-কে নির্দেশ-টিউনিং সেটের বাইরের নির্দেশাবলীতে সাধারণীকরণ করতে এবং সাধারণত তাদের ব্যবহারযোগ্যতা বৃদ্ধি করতে সক্ষম করে [13]। নির্দেশনা টিউনিংয়ের সাফল্য সত্ত্বেও, বিশেষজ্ঞ প্রদর্শনের তুলনায় প্রতিক্রিয়া মানের আপেক্ষিক মানবিক বিচারগুলি প্রায়শই সংগ্রহ করা সহজ, এবং এইভাবে পরবর্তী কাজগুলিতে মানব পছন্দের ডেটাসেট সহ সূক্ষ্ম-সুরিত এলএলএম রয়েছে, অনুবাদে দক্ষতা উন্নত করা হয়েছে [18], সংক্ষিপ্তকরণ [38, 49] ], গল্প বলা [49], এবং নির্দেশনা-অনুসরণ [26, 32]। এই পদ্ধতিগুলি প্রথমে ব্র্যাডলি-টেরি মডেল [৫] এর মতো পছন্দের মডেলের অধীনে পছন্দগুলির ডেটাসেটের সাথে সামঞ্জস্যের জন্য একটি নিউরাল নেটওয়ার্ক পুরষ্কার ফাংশনকে অপ্টিমাইজ করে, তারপরে রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম ব্যবহার করে প্রদত্ত পুরষ্কার সর্বাধিক করার জন্য একটি ভাষা মডেলকে সূক্ষ্ম-টিউন করে, সাধারণত শক্তিশালীকরণ [৪৫], প্রক্সিমাল পলিসি অপ্টিমাইজেশান (পিপিও; [৩৭]), বা রূপগুলি [৩২]। কাজের একটি ঘনিষ্ঠ-সম্পর্কিত লাইন LLM গুলিকে মানব প্রতিক্রিয়ার সাথে অনুসরণ করে নির্দেশের জন্য সূক্ষ্মভাবে তৈরি করে যাতে নিরাপত্তা বা ক্ষতিহীনতার মতো লক্ষ্যযুক্ত বৈশিষ্ট্যগুলির জন্য অতিরিক্ত সিন্থেটিক পছন্দ ডেটা তৈরি করা যায় [2], একটি পাঠ্য রুব্রিকের আকারে মানুষের কাছ থেকে শুধুমাত্র দুর্বল তত্ত্বাবধান ব্যবহার করে এলএলএম এর টীকা। এই পদ্ধতিগুলি কাজের দুটি সংস্থার একত্রিতকরণের প্রতিনিধিত্ব করে: বিভিন্ন উদ্দেশ্যগুলির জন্য শক্তিবৃদ্ধি শেখার সাথে প্রশিক্ষণের ভাষা মডেলগুলির একটি কাজ [33, 27, 46] এবং মানুষের পছন্দগুলি থেকে শেখার জন্য সাধারণ পদ্ধতিগুলির উপর কাজের আরেকটি অংশ [12, 19]। আপেক্ষিক মানুষের পছন্দগুলি ব্যবহার করার আবেদন সত্ত্বেও, শক্তিবৃদ্ধি শেখার সাথে বৃহৎ ভাষার মডেলগুলিকে সূক্ষ্ম-টিউনিং করা একটি বড় ব্যবহারিক চ্যালেঞ্জ রয়ে গেছে; এই কাজটি RL ছাড়া আপেক্ষিক পছন্দগুলি অপ্টিমাইজ করার জন্য একটি তাত্ত্বিক-ন্যায্য পদ্ধতি প্রদান করে।

ভাষার প্রেক্ষাপটের বাইরে, পছন্দগুলি থেকে শেখার নীতিগুলি দস্যু এবং শক্তিবৃদ্ধি শেখার সেটিংস উভয় ক্ষেত্রেই অধ্যয়ন করা হয়েছে এবং বেশ কয়েকটি পদ্ধতির প্রস্তাব করা হয়েছে। পুরষ্কারের পরিবর্তে পছন্দ বা কর্মের র‌্যাঙ্কিং ব্যবহার করে প্রাসঙ্গিক দস্যু শিক্ষা, একটি প্রাসঙ্গিক দ্বৈত দস্যু হিসাবে পরিচিত (CDB; [48, 14])। পরম পুরষ্কারের অনুপস্থিতিতে, CDB-এর তাত্ত্বিক বিশ্লেষণ ভন নিউম্যান বিজয়ীর সাথে একটি সর্বোত্তম নীতির ধারণাকে প্রতিস্থাপন করে, এমন একটি নীতি যার অন্য যেকোনো নীতির বিপরীতে প্রত্যাশিত জয়ের হার কমপক্ষে 50% [14]। যাইহোক, CDB সেটিংসে, পছন্দের লেবেলগুলি অনলাইনে দেওয়া হয়, মানুষের পছন্দগুলি থেকে শেখার সময়, আমরা সাধারণত অফলাইন পছন্দ-টীকাযুক্ত অ্যাকশন জোড়ার একটি নির্দিষ্ট ব্যাচ থেকে শিখি [47]। একইভাবে, পছন্দ-ভিত্তিক RL (PbRL) পুরস্কারের পরিবর্তে একটি অজানা 'স্কোরিং' ফাংশন দ্বারা তৈরি বাইনারি পছন্দগুলি থেকে শেখে [9, 35]। PbRL-এর জন্য বিভিন্ন অ্যালগরিদম বিদ্যমান, সেই পদ্ধতিগুলি সহ যেগুলি অফ-পলিসি পছন্দ ডেটা পুনঃব্যবহার করতে পারে, কিন্তু সাধারণত প্রথমে সুপ্ত স্কোরিং ফাংশন (যেমন পুরষ্কার মডেল) অনুমান করা এবং পরবর্তীতে এটিকে অপ্টিমাইজ করা জড়িত [16, 9, 12, 34, 19]। আমরা পরিবর্তে একটি একক পর্যায়ে নীতি শেখার পদ্ধতি উপস্থাপন করি যা পছন্দগুলি সন্তুষ্ট করার জন্য একটি নীতিকে সরাসরি অপ্টিমাইজ করে।

এই কাগজটি CC BY-NC-ND 4.0 DEED লাইসেন্সের অধীনে ।