151 পড়া

বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

দ্বারা Writings, Papers and Blogs on Text Models4m2024/06/02

অতিদীর্ঘ; পড়তে

গবেষকরা টেক্সট জেনারেশনের জন্য একটি সসীম-স্টেট মেশিন ফ্রেমওয়ার্ক প্রস্তাব করেন, যা সুনির্দিষ্ট নিয়ন্ত্রণ এবং উন্নত কর্মক্ষমতা প্রদান করে।

featured image - বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

লেখক:

(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং; (2) রেমি লাউফ, সাধারণ কম্পিউটিং।

লিঙ্কের টেবিল

5. আলোচনা

এই কাগজে প্রবর্তিত শব্দভান্ডার সূচী নির্দেশিত প্রজন্মের মধ্যে একটি নিষিদ্ধ রান-টাইম স্কেলিং বাধা দূর করে। স্বাভাবিকভাবেই, এটি প্রক্রিয়াকরণ এবং মেমরির মধ্যে একটি লেনদেন তৈরি করে, কিন্তু আমরা বিশ্বাস করি যে মেমরির খরচ গড়ে তুলনামূলকভাবে কম এবং–যখন না হয়–প্রথাগত উপায়ে কমানো যায়৷

পাইথন ব্যাকরণের একটি সামান্য পরিবর্ধিত সংস্করণ ব্যবহার করে আমাদের পরীক্ষায়, আমরা দেখতে পাই যে এমনকি নির্বোধভাবে নির্মিত সূচকগুলি (যেমন অব্যবহৃত এবং অপ্রয়োজনীয় পার্সার এবং FSM স্টেট কনফিগারেশন রয়েছে) এখনও মাত্র 50 MB এর কাছাকাছি। তদ্ব্যতীত, এই সূচকগুলি অ-হ্রাসকৃত ডিএফএগুলির সাথে তৈরি করা হয়েছিল, যা বোঝায় যে অনেকগুলি অপ্রয়োজনীয় অবস্থা রয়েছে যা অপ্রয়োজনীয়ভাবে সূচকগুলির আকার বাড়িয়েছে। একইভাবে, যদি রাষ্ট্রীয় মেশিনগুলির সঠিক উপস্থাপনা কখনও একটি সমস্যা হয়, তবে এটি সম্ভব যে নিম্ন মেমরির প্রয়োজনীয়তা সহ অন্যান্য রাষ্ট্রীয় মেশিন ফর্মুলেশন যথেষ্ট হতে পারে (যেমন NFAs)।

এই কাজের প্রভাব শুধুমাত্র নিউরাল টেক্সট জেনারেশনের মধ্যে সীমাবদ্ধ নয়। উদাহরণস্বরূপ, যখন কাঠামোগত আউটপুটগুলির প্রয়োজন হয় তখন কেউ প্রশিক্ষণ বা এলএলএম-এর সূক্ষ্ম-টিউনিংয়ে সহায়তা করার জন্য এখানে বর্ণিত ইন্ডেক্সিং পদ্ধতি ব্যবহার করতে পারে। আমরা অনুমান করতে পারি যে প্রশিক্ষণের সময় সহায়ক প্রজন্ম সিনট্যাকটিক বিবরণ শেখার জন্য একটি মডেলের প্রয়োজনীয়তা হ্রাস করতে পারে।

উপরন্তু, এই পদ্ধতি বর্তমান মডেল মূল্যায়ন একটি বিকল্প উপায় প্রদান করে. উদাহরণস্বরূপ, কেউ আমাদের পদ্ধতি দ্বারা উত্পন্ন মুখোশযুক্ত লজিট এবং মডেল দ্বারা উত্পন্ন কাঁচা লগিটগুলির মধ্যে পার্থক্য পরিমাপ করার চেষ্টা করতে পারে। যা একটি মডেলের প্রশিক্ষণের উদ্দেশ্য সম্পর্কে জানাতে পারে।

ভাষা মডেলগুলিতে এই পদ্ধতির দ্বারা গণনা করা মুখোশগুলিকে "উত্তোলন" করাও সম্ভব হতে পারে। মূলত, মুখোশগুলি স্পষ্টভাবে নির্ধারণ করে যে কোন গণনাগুলি সম্পাদন করার প্রয়োজন নেই। আমাদের বর্তমান ফর্মুলেশন শুধুমাত্র সর্বনিম্ন স্তরে মুখোশগুলিকে প্রয়োগ করে, কিন্তু, মডেলের আর্কিটেকচারে মুখোশগুলিকে আরও উপরে তোলার মাধ্যমে, আমরা অপ্রয়োজনীয়ভাবে অপারেশন করার আগে মডেলের প্যারামিটারগুলির কোন স্লাইসগুলি প্রয়োজন তা মডিউল করতে সক্ষম হতে পারি৷ এতে কম্পিউটেশনাল খরচ আরও কমানোর সম্ভাবনা রয়েছে।

তথ্যসূত্র

লুকা বিউর-কেলনার, মার্ক ফিশার এবং মার্টিন ভেচেভ। প্রম্পটিং হল প্রোগ্রামিং: বড় ভাষার মডেলের জন্য একটি কোয়েরি ভাষা। প্রোগ্রামিং ল্যাঙ্গুয়েজে ACM-এর কার্যক্রম, 7(PLDI):1946–1969, 2023।

ইহং ডং, জি লি এবং ঝি জিন। কোডপ: সাধারণ-উদ্দেশ্য কোড জেনারেশনের জন্য ব্যাকরণগত Seq2Seq মডেল। সফ্টওয়্যার টেস্টিং অ্যান্ড অ্যানালাইসিস, ISSTA 2023, পৃষ্ঠা 188-198, নিউ ইয়র্ক, NY, USA, জুলাই 2023-এর 32 তম ACM SIGSOFT ইন্টারন্যাশনাল সিম্পোজিয়ামের কার্যক্রমে। কম্পিউটিং মেশিনারির জন্য সমিতি। ISBN 9798400702211. doi: 10.1145/3597926. 3598048।

সাইবো গেং, মার্টিন জোসিফোস্কি, ম্যাক্সিম পেয়ারার্ড এবং রবার্ট ওয়েস্ট। ভাষা মডেলের জন্য নমনীয় ব্যাকরণ-ভিত্তিক সীমাবদ্ধ ডিকোডিং, মে 2023।

মাইকেল কুচনিক, ভার্জিনিয়া স্মিথ এবং জর্জ আমভ্রোসিয়াদিস। relm সহ বড় ভাষার মডেল যাচাই করা হচ্ছে। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 5, 2023।

আলেকজান্ডার কে. লিউ, তান ঝি-জুয়ান, গ্যাব্রিয়েল গ্র্যান্ড এবং বিকাশ কে. মানসিংহকা। সম্ভাব্য প্রোগ্রাম ব্যবহার করে বড় ভাষার মডেলের অনুক্রমিক মন্টে কার্লো স্টিয়ারিং। arXiv প্রিপ্রিন্ট arXiv:2306.03081, 2023।

রেমি লাউফ এবং ব্র্যান্ডন টি. উইলার্ড। রূপরেখা: জেনারেটিভ মডেল প্রোগ্রামিং। URL //github.com/normal-computing/outlines।

মাইক্রোসফট। নির্দেশনা। Microsoft, জুলাই 2023. URL //github.com/ microsoft/guidance.

গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি। arXiv প্রিপ্রিন্ট arXiv:2201.11227, 2022a।

ম্যাক্সিম রাবিনোভিচ, মিচেল স্টার্ন এবং ড্যান ক্লেইন। কোড জেনারেশন এবং সিমেন্টিক পার্সিংয়ের জন্য বিমূর্ত সিনট্যাক্স নেটওয়ার্ক। arXiv প্রিপ্রিন্ট arXiv:1704.07535, 2017।

অ্যালেক র‌্যাডফোর্ড, জেফরি উ, রেওন চাইল্ড, ডেভিড লুয়ান, দারিও আমোদি এবং ইলিয়া সুটস্কেভার। ভাষার মডেলগুলি তত্ত্বাবধানহীন মাল্টিটাস্ক লার্নার্স। OpenAI ব্লগ, 1(8):9, 2019।

ম্যাট রিকার্ড। parserLLM, জুলাই 2023a. URL //github.com/r2d4/ parserllm।

ম্যাট রিকার্ড। R2d4/rellm: যেকোন ভাষা মডেলের সম্পূর্ণতা থেকে সঠিক কাঠামো।, 2023b। URL //github.com/r2d4/rellm.

টর্স্টেন স্কোলাক, নাথান শুচার এবং ডিজমিত্রি বাহদানাউ। PICARD: ভাষা মডেল থেকে সীমাবদ্ধ স্বয়ংক্রিয়-রিগ্রেসিভ ডিকোডিংয়ের জন্য ক্রমবর্ধমান পার্সিং। arXiv প্রিপ্রিন্ট arXiv:2109.05093, 2021।

রিকো সেনরিচ, ব্যারি হ্যাডো এবং আলেকজান্দ্রা বার্চ। সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ। arXiv প্রিপ্রিন্ট arXiv:1508.07909, 2015।

মাইকেল সিপসার। কম্পিউটেশন তত্ত্বের ভূমিকা। আন্তর্জাতিক থমসন পাবলিশিং, 1996।

আশিস ভাসওয়ানি, নোয়াম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইদান এন. গোমেজ, লুকাজ কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 30, 2017।

বেলিন ওয়াং, জি ওয়াং, জুয়েঝি ওয়াং, ইউয়ান কাও, রিফ এ. সৌরস এবং ইউন কিম। বড় ভাষার মডেল সহ ডোমেন-নির্দিষ্ট ভাষা তৈরির জন্য ব্যাকরণ প্রম্পটিং, মে 2023।

লিলিয়ান ওয়েং। নিয়ন্ত্রণযোগ্য নিউরাল টেক্সট জেনারেশন, জানুয়ারী 2021। URL //lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/।