paint-brush
বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি দ্বারা@textmodels
151 পড়া

বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

দ্বারা Writings, Papers and Blogs on Text Models4m2024/06/02
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা টেক্সট জেনারেশনের জন্য একটি সসীম-স্টেট মেশিন ফ্রেমওয়ার্ক প্রস্তাব করেন, যা সুনির্দিষ্ট নিয়ন্ত্রণ এবং উন্নত কর্মক্ষমতা প্রদান করে।
featured image - বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং; (2) রেমি লাউফ, সাধারণ কম্পিউটিং।

লিঙ্কের টেবিল

5. আলোচনা

এই কাগজে প্রবর্তিত শব্দভান্ডার সূচী নির্দেশিত প্রজন্মের মধ্যে একটি নিষিদ্ধ রান-টাইম স্কেলিং বাধা দূর করে। স্বাভাবিকভাবেই, এটি প্রক্রিয়াকরণ এবং মেমরির মধ্যে একটি লেনদেন তৈরি করে, কিন্তু আমরা বিশ্বাস করি যে মেমরির খরচ গড়ে তুলনামূলকভাবে কম এবং–যখন না হয়–প্রথাগত উপায়ে কমানো যায়৷


পাইথন ব্যাকরণের একটি সামান্য পরিবর্ধিত সংস্করণ ব্যবহার করে আমাদের পরীক্ষায়, আমরা দেখতে পাই যে এমনকি নির্বোধভাবে নির্মিত সূচকগুলি (যেমন অব্যবহৃত এবং অপ্রয়োজনীয় পার্সার এবং FSM স্টেট কনফিগারেশন রয়েছে) এখনও মাত্র 50 MB এর কাছাকাছি। তদ্ব্যতীত, এই সূচকগুলি অ-হ্রাসকৃত ডিএফএগুলির সাথে তৈরি করা হয়েছিল, যা বোঝায় যে অনেকগুলি অপ্রয়োজনীয় অবস্থা রয়েছে যা অপ্রয়োজনীয়ভাবে সূচকগুলির আকার বাড়িয়েছে। একইভাবে, যদি রাষ্ট্রীয় মেশিনগুলির সঠিক উপস্থাপনা কখনও একটি সমস্যা হয়, তবে এটি সম্ভব যে নিম্ন মেমরির প্রয়োজনীয়তা সহ অন্যান্য রাষ্ট্রীয় মেশিন ফর্মুলেশন যথেষ্ট হতে পারে (যেমন NFAs)।


এই কাজের প্রভাব শুধুমাত্র নিউরাল টেক্সট জেনারেশনের মধ্যে সীমাবদ্ধ নয়। উদাহরণস্বরূপ, যখন কাঠামোগত আউটপুটগুলির প্রয়োজন হয় তখন কেউ প্রশিক্ষণ বা এলএলএম-এর সূক্ষ্ম-টিউনিংয়ে সহায়তা করার জন্য এখানে বর্ণিত ইন্ডেক্সিং পদ্ধতি ব্যবহার করতে পারে। আমরা অনুমান করতে পারি যে প্রশিক্ষণের সময় সহায়ক প্রজন্ম সিনট্যাকটিক বিবরণ শেখার জন্য একটি মডেলের প্রয়োজনীয়তা হ্রাস করতে পারে।


উপরন্তু, এই পদ্ধতি বর্তমান মডেল মূল্যায়ন একটি বিকল্প উপায় প্রদান করে. উদাহরণস্বরূপ, কেউ আমাদের পদ্ধতি দ্বারা উত্পন্ন মুখোশযুক্ত লজিট এবং মডেল দ্বারা উত্পন্ন কাঁচা লগিটগুলির মধ্যে পার্থক্য পরিমাপ করার চেষ্টা করতে পারে। যা একটি মডেলের প্রশিক্ষণের উদ্দেশ্য সম্পর্কে জানাতে পারে।


ভাষা মডেলগুলিতে এই পদ্ধতির দ্বারা গণনা করা মুখোশগুলিকে "উত্তোলন" করাও সম্ভব হতে পারে। মূলত, মুখোশগুলি স্পষ্টভাবে নির্ধারণ করে যে কোন গণনাগুলি সম্পাদন করার প্রয়োজন নেই। আমাদের বর্তমান ফর্মুলেশন শুধুমাত্র সর্বনিম্ন স্তরে মুখোশগুলিকে প্রয়োগ করে, কিন্তু, মডেলের আর্কিটেকচারে মুখোশগুলিকে আরও উপরে তোলার মাধ্যমে, আমরা অপ্রয়োজনীয়ভাবে অপারেশন করার আগে মডেলের প্যারামিটারগুলির কোন স্লাইসগুলি প্রয়োজন তা মডিউল করতে সক্ষম হতে পারি৷ এতে কম্পিউটেশনাল খরচ আরও কমানোর সম্ভাবনা রয়েছে।

তথ্যসূত্র

লুকা বিউর-কেলনার, মার্ক ফিশার এবং মার্টিন ভেচেভ। প্রম্পটিং হল প্রোগ্রামিং: বড় ভাষার মডেলের জন্য একটি কোয়েরি ভাষা। প্রোগ্রামিং ল্যাঙ্গুয়েজে ACM-এর কার্যক্রম, 7(PLDI):1946–1969, 2023।


ইহং ডং, জি লি এবং ঝি জিন। কোডপ: সাধারণ-উদ্দেশ্য কোড জেনারেশনের জন্য ব্যাকরণগত Seq2Seq মডেল। সফ্টওয়্যার টেস্টিং অ্যান্ড অ্যানালাইসিস, ISSTA 2023, পৃষ্ঠা 188-198, নিউ ইয়র্ক, NY, USA, জুলাই 2023-এর 32 তম ACM SIGSOFT ইন্টারন্যাশনাল সিম্পোজিয়ামের কার্যক্রমে। কম্পিউটিং মেশিনারির জন্য সমিতি। ISBN 9798400702211. doi: 10.1145/3597926. 3598048।


সাইবো গেং, মার্টিন জোসিফোস্কি, ম্যাক্সিম পেয়ারার্ড এবং রবার্ট ওয়েস্ট। ভাষা মডেলের জন্য নমনীয় ব্যাকরণ-ভিত্তিক সীমাবদ্ধ ডিকোডিং, মে 2023।


মাইকেল কুচনিক, ভার্জিনিয়া স্মিথ এবং জর্জ আমভ্রোসিয়াদিস। relm সহ বড় ভাষার মডেল যাচাই করা হচ্ছে। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 5, 2023।


আলেকজান্ডার কে. লিউ, তান ঝি-জুয়ান, গ্যাব্রিয়েল গ্র্যান্ড এবং বিকাশ কে. মানসিংহকা। সম্ভাব্য প্রোগ্রাম ব্যবহার করে বড় ভাষার মডেলের অনুক্রমিক মন্টে কার্লো স্টিয়ারিং। arXiv প্রিপ্রিন্ট arXiv:2306.03081, 2023।


রেমি লাউফ এবং ব্র্যান্ডন টি. উইলার্ড। রূপরেখা: জেনারেটিভ মডেল প্রোগ্রামিং। URL //github.com/normal-computing/outlines।


মাইক্রোসফট। নির্দেশনা। Microsoft, জুলাই 2023. URL //github.com/ microsoft/guidance.


গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি। arXiv প্রিপ্রিন্ট arXiv:2201.11227, 2022a।


গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি, জানুয়ারী 2022b।


ম্যাক্সিম রাবিনোভিচ, মিচেল স্টার্ন এবং ড্যান ক্লেইন। কোড জেনারেশন এবং সিমেন্টিক পার্সিংয়ের জন্য বিমূর্ত সিনট্যাক্স নেটওয়ার্ক। arXiv প্রিপ্রিন্ট arXiv:1704.07535, 2017।


অ্যালেক র‌্যাডফোর্ড, জেফরি উ, রেওন চাইল্ড, ডেভিড লুয়ান, দারিও আমোদি এবং ইলিয়া সুটস্কেভার। ভাষার মডেলগুলি তত্ত্বাবধানহীন মাল্টিটাস্ক লার্নার্স। OpenAI ব্লগ, 1(8):9, 2019।


ম্যাট রিকার্ড। parserLLM, জুলাই 2023a. URL //github.com/r2d4/ parserllm।


ম্যাট রিকার্ড। R2d4/rellm: যেকোন ভাষা মডেলের সম্পূর্ণতা থেকে সঠিক কাঠামো।, 2023b। URL //github.com/r2d4/rellm.


টর্স্টেন স্কোলাক, নাথান শুচার এবং ডিজমিত্রি বাহদানাউ। PICARD: ভাষা মডেল থেকে সীমাবদ্ধ স্বয়ংক্রিয়-রিগ্রেসিভ ডিকোডিংয়ের জন্য ক্রমবর্ধমান পার্সিং। arXiv প্রিপ্রিন্ট arXiv:2109.05093, 2021।


রিকো সেনরিচ, ব্যারি হ্যাডো এবং আলেকজান্দ্রা বার্চ। সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ। arXiv প্রিপ্রিন্ট arXiv:1508.07909, 2015।


মাইকেল সিপসার। কম্পিউটেশন তত্ত্বের ভূমিকা। আন্তর্জাতিক থমসন পাবলিশিং, 1996।


আশিস ভাসওয়ানি, নোয়াম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইদান এন. গোমেজ, লুকাজ কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 30, 2017।


বেলিন ওয়াং, জি ওয়াং, জুয়েঝি ওয়াং, ইউয়ান কাও, রিফ এ. সৌরস এবং ইউন কিম। বড় ভাষার মডেল সহ ডোমেন-নির্দিষ্ট ভাষা তৈরির জন্য ব্যাকরণ প্রম্পটিং, মে 2023।


লিলিয়ান ওয়েং। নিয়ন্ত্রণযোগ্য নিউরাল টেক্সট জেনারেশন, জানুয়ারী 2021। URL //lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/।

স্বীকৃতি

আমরা তাদের সমর্থন এবং গঠনমূলক প্রতিক্রিয়ার জন্য Dan Gerlanc এবং Dan Simpson কে ধন্যবাদ জানাতে চাই।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে ।


바카라사이트 바카라사이트 온라인바카라