এই গবেষণাটি অ্যাঙ্কর-ভিত্তিক বড় ভাষা মডেলগুলি (AnLLMs) উপস্থাপন করে, যা একটি অ্যাঙ্কর টোকেনে অনুক্রমের তথ্য সংকুচিত করার জন্য একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) নিয়োগ করে। এই পদ্ধতিটি উল্লেখযোগ্যভাবে কী/মান ক্যাশের আকার হ্রাস করে এবং ন্যূনতম নির্ভুলতা সমঝোতার সাথে 99% পর্যন্ত ক্যাশে হ্রাস এবং 3.5x দ্রুত প্রক্রিয়াকরণ অর্জন করে অনুমান কার্যক্ষমতা বাড়ায়। AnLLMs বৃহৎ-স্কেল ভাষার মডেলগুলির জন্য মেমরি অপ্টিমাইজেশানে একটি অগ্রগতি অফার করে।
লেখক:
(1) জিয়ানহুই পাং, ম্যাকাও বিশ্ববিদ্যালয় থেকে, এবং কাজটি করা হয়েছিল যখন জিয়ানহুই পাং এবং ফাংহুয়া ইয়ে টেনসেন্ট এআই ল্যাবে ([email protected]);
(2) ফাংহুয়া ইয়ে, ইউনিভার্সিটি কলেজ লন্ডন, এবং কাজ করা হয়েছিল যখন জিয়ানহুই পাং এবং ফাংহুয়া ইয়ে টেনসেন্ট এআই ল্যাব ([email protected]);
(3) ডেরেক এফ. ওং, ম্যাকাও বিশ্ববিদ্যালয়; (4) Longyue Wang, Tencent AI ল্যাব, এবং সংশ্লিষ্ট লেখক।
বড় ভাষা মডেল (LLMs) প্রধানত ডিকোডার-শুধু ট্রান্সফরমার আর্কিটেকচার নিযুক্ত করে, প্রাসঙ্গিক তথ্য প্রদান করতে এবং অপ্রয়োজনীয় গণনা এড়াতে ঐতিহাসিক টোকেনের জন্য কী/মান তথ্য ধারণ করার প্রয়োজন হয়। যাইহোক, এই LLMগুলির উল্লেখযোগ্য আকার এবং প্যারামিটার ভলিউমের জন্য বিশাল GPU মেমরির প্রয়োজন। এই মেমরির চাহিদা ইনপুট টেক্সটের দৈর্ঘ্যের সাথে বৃদ্ধি পায়, যার ফলে তথ্য সঞ্চয় এবং প্রক্রিয়াকরণের আরও দক্ষ পদ্ধতির জরুরী প্রয়োজন হয়। এই গবেষণাটি অ্যাঙ্কর-ভিত্তিক LLMs (AnLLMs) প্রবর্তন করে, যা একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) এবং একটি অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল ব্যবহার করে। এই পদ্ধতির সাহায্যে এলএলএম-কে অ্যাঙ্কর টোকেনে সিকোয়েন্স তথ্য সংকুচিত করতে সক্ষম করে, কী/মান ক্যাশে হ্রাস করে এবং অনুমান কার্যক্ষমতা বাড়ায়। প্রশ্ন-উত্তর বেঞ্চমার্কের পরীক্ষাগুলি প্রকাশ করে যে AnLLMগুলি 99% কী/মান ক্যাশে হ্রাস এবং 3.5 গুণ পর্যন্ত দ্রুত অনুমান অর্জন করার সময় একই নির্ভুলতা স্তর বজায় রাখে। নির্ভুলতার ক্ষেত্রে সামান্য সমঝোতা সত্ত্বেও, সম্পদের ব্যবহার এবং কম্পিউটেশনাল দক্ষতার ক্ষেত্রে AnSAN কৌশল নিযুক্ত করে AnLLM-এর উল্লেখযোগ্য বর্ধনগুলি বাস্তবিক এলএলএম অ্যাপ্লিকেশনগুলির জন্য তাদের সম্ভাবনাকে আন্ডারস্কোর করে।
1 ভূমিকা
বৃহৎ ভাষার মডেল (LLMs) প্রাথমিকভাবে ডিকোডার-অনলি ট্রান্সফরমার আর্কিটেকচার ব্যবহার করে, যা প্রাসঙ্গিক তথ্য সরবরাহ করতে এবং অপ্রয়োজনীয় গণনা এড়াতে ঐতিহাসিক টোকেনগুলির জন্য ক্যাশিং কী/মান তথ্যের প্রয়োজন হয় (Wei et al., 2022; al. , 2023a; OpenAI, 2023 Touvron et al., 2023b) যাইহোক, তাদের বিশাল আকার এবং উচ্চ পরামিতি গণনার কারণে, লোড করার জন্য যথেষ্ট পরিমাণ GPU মেমরি প্রয়োজন। উপরন্তু, দৈর্ঘ্য হিসাবে
ইনপুট টেক্সট বাড়তে থাকে, কী/মান ক্যাশে সংরক্ষণের জন্য আরও বেশি জিপিইউ মেমরির প্রয়োজন হয়, যেমনটি প্রসঙ্গ শিক্ষা, জটিল নির্দেশাবলী এবং বর্ধিত কথোপকথনের প্রমাণ (ডং এট আল।, 2022; জিয়াং এট আল।, 2023; ওয়াং এট আল। , 2023), যা সীমিত কম্পিউটেশনাল রিসোর্স সহ পরিস্থিতির জন্য উপযোগী নয়। একটি বিকল্প পদ্ধতির মধ্যে এই বিস্তৃত ইনপুটগুলি পুনঃগণনা করা হয়, যার ফলে সময় ওভারহেড বৃদ্ধি পায়। তাই, এই অধ্যয়নের লক্ষ্য হল LLM-এর অনুমান পর্বের সময় কী/মান ক্যাশের স্টোরেজ চাহিদা কমানো, মেমরির দক্ষতা উন্নত করা এবং ফলস্বরূপ, অনুমান গতিকেও ত্বরান্বিত করা।
একটি সাম্প্রতিক গবেষণায়, ওয়াং এট আল। (2023) দেখান যে উপসর্গ প্রদর্শনের লেবেল শব্দগুলি অনুমানের সময় অ্যাঙ্কর হিসাবে কাজ করতে পারে, ইন-প্রেক্ষাপট শেখার ক্ষেত্রে অনুমান দক্ষতা উন্নত করার জন্য একটি কার্যকর প্রসঙ্গ সংকোচনের পদ্ধতি প্রদান করে। যাইহোক, ব্যবহারিক অ্যাপ্লিকেশনগুলিতে, সমস্ত উপসর্গ ইনপুট বা প্রদর্শনগুলিতে তথ্য সংকুচিত করার জন্য উপযুক্ত লেবেল শব্দ থাকে না, যা লেবেল শব্দের উপর নির্ভরতাকে পাঠ্য তথ্য সংকোচনের জন্য একটি কম সর্বজনীন পদ্ধতিতে পরিণত করে। উপরন্তু, পাং এট আল। (2024) লক্ষ্য করুন যে LLMs অনুমান করার সময় শুধুমাত্র কয়েকটি, তবুও সামঞ্জস্যপূর্ণ, উপসর্গ টোকেনগুলিতে উপস্থিত থাকে। যাইহোক, ব্যবহৃত নির্দিষ্ট টোকেনগুলি প্রায়শই অপ্রত্যাশিত এবং অনিয়ন্ত্রিত হয়। এই পর্যবেক্ষণগুলি একটি কৌতূহলী প্রশ্ন উত্থাপন করে: প্রাকৃতিক ভাষার পাঠে কি অ্যাঙ্কর পয়েন্ট থাকে যা সিকোয়েন্সের সামগ্রিক শব্দার্থিক তথ্য সংকুচিত করে? এই প্রসঙ্গে, সিকোয়েন্স এম্বেডিংয়ের পূর্ববর্তী গবেষণায় দেখানো হয়েছে যে নিউরাল নেটওয়ার্ক মডেলগুলিতে একটি বিশেষ টোকেনের লুকানো অবস্থা শব্দার্থিক তথ্যকে এনক্যাপসুলেট করতে পারে (বাউডিস এট আল।, 2016; ডেভলিন এট আল।, 2018)। অধিকন্তু, সমসাময়িক এলএলএম সাধারণত প্রশিক্ষণ এবং অনুমান উভয় পর্যায়েই কার্যকারণ স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করে (Touvron et al., 2023a,b), প্রতিটি পূর্বের টোকেনে অংশগ্রহণ করে। এটি পরামর্শ দেয় যে একটি অনুক্রমের চূড়ান্ত টোকেন অন্যান্য টোকেনের তুলনায় প্রাকৃতিক তথ্য সংকোচন পয়েন্ট হিসাবে পরিবেশন করার জন্য আরও উপযুক্ত হতে পারে, কারণ তারা ভবিষ্যতের টোকেনগুলি পর্যবেক্ষণ করতে পারে না। অতএব, একটি পদ্ধতিগত পদ্ধতি যা একটি নির্ভরযোগ্য এবং নিয়ন্ত্রণযোগ্য পদ্ধতিতে সিকোয়েন্স অ্যাঙ্কর টোকেনগুলি সনাক্ত করে এবং শোষণ করে ক্রম তথ্য সংকুচিত করার জন্য, কার্যকরভাবে কী/মান ক্যাশে কমাতে এবং LLM-এর জন্য অনুমান দক্ষতা উন্নত করার জন্য অপরিহার্য।
এই লক্ষ্যে, আমরা একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) এবং একটি অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল দিয়ে সজ্জিত উপন্যাস A nchor-ভিত্তিক L arge L anguage M odels (AnLLMs) প্রস্তাব করছি। অ্যাঙ্কর-ভিত্তিক মনোযোগের মুখোশের সাহায্যে প্রশিক্ষণ প্রক্রিয়া চলাকালীন অ্যাঙ্কর টোকেনে (আমাদের বাস্তবায়নের শেষ টোকেন) ক্রমিক তথ্য সংকুচিত করতে মডেলগুলিকে বাধ্য করার জন্য AnSAN ডিজাইন করা হয়েছে। অনুমানের সময়, অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল অ্যাঙ্কর টোকেনগুলির কী/মান ক্যাশে ধরে রাখে, যা সমগ্র ক্রম তথ্যকে একত্রিত করেছে এবং নন্যাঙ্কর টোকেনগুলিকে বাতিল করে দেয়, যার ফলে মেমরির চাহিদা হ্রাস পায়। বিশেষভাবে, AnSAN-এর জন্য অ্যাঙ্কর-ভিত্তিক মনোযোগের মুখোশগুলি দুটি উদ্দেশ্য পূরণ করে: 1) অ্যাঙ্কর টোকেনগুলি একই ক্রমগুলির মধ্যে টোকেনগুলিতে একচেটিয়াভাবে উপস্থিত হয় তা নিশ্চিত করা, অন্যান্য ক্রমগুলির প্রতি মনোযোগ রোধ করা এবং 2) পূর্ববর্তী ক্রম নোঙ্গরগুলিতে নন-অ্যাঙ্কর টোকেনগুলির মনোযোগ নির্দেশ করা। , পূর্ববর্তী ক্রম থেকে অন্যান্য নন্যাঙ্কর টোকেনগুলিকে ব্লক করা। এটি লক্ষণীয় যে অ্যাঙ্কর-ভিত্তিক মনোযোগের কৌশলটি স্পার্স মনোযোগের অন্তর্নিহিত নীতিগুলির সাথে মিল বহন করে (চাইল্ড এট আল।, 2019)। যাইহোক, বিদ্যমান গবেষণার বিপরীতে যা এলএলএম-এর প্রসঙ্গ দৈর্ঘ্য বাড়ানোর জন্য বিক্ষিপ্ত মনোযোগ নিযুক্ত করে (চেন এট আল।, 2023; রেটনার এট আল।, 2023), আমাদের পদ্ধতিটি অ্যাঙ্করে ক্রম তথ্য সংকুচিত করার জন্য মডেলটিকে ক্রমাগত প্রাক-প্রশিক্ষণ দেওয়ার উপর দৃষ্টি নিবদ্ধ করে। টোকেন