बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचय

द्वारा Writings, Papers and Blogs on Text Models3m2024/06/02

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।

featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचय

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग; (2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

अमूर्त

इस लेख में हम दिखाते हैं कि कैसे तंत्रिका पाठ निर्माण की समस्या को परिमित-अवस्था मशीन की अवस्थाओं के बीच संक्रमण के संदर्भ में रचनात्मक रूप से सुधारा जा सकता है। यह ढांचा भाषा मॉडल की शब्दावली पर एक सूचकांक के निर्माण की अनुमति देकर नियमित अभिव्यक्तियों और संदर्भ-मुक्त व्याकरण के साथ पाठ निर्माण को निर्देशित करने के लिए एक कुशल दृष्टिकोण की ओर ले जाता है। यह दृष्टिकोण मॉडल अज्ञेयवादी है, किसी को डोमेन-विशिष्ट ज्ञान और बाधाओं को लागू करने की अनुमति देता है, और उत्पन्न पाठ की संरचना की गारंटी देकर विश्वसनीय इंटरफेस के निर्माण को सक्षम बनाता है। यह टोकन अनुक्रम निर्माण प्रक्रिया में थोड़ा ओवरहेड जोड़ता है और मौजूदा समाधानों से काफी बेहतर प्रदर्शन करता है। ओपन सोर्स पायथन लाइब्रेरी आउटलाइन्स [लौफ और विलार्ड] में एक कार्यान्वयन प्रदान किया गया है।

1 परिचय

हम एक बड़े भाषा मॉडल (LLM) [वासवानी एट अल., 2017, रैडफ़ोर्ड एट अल., 2019] से टोकन के अनुक्रम उत्पन्न करने की समस्या से चिंतित हैं जो नियमित अभिव्यक्तियों या संदर्भ-मुक्त व्याकरण (CFG) के अनुरूप हैं। इस तरह के निर्देशित LLM जेनरेशन का उपयोग LLM मॉडल आउटपुट को कठोर फ़ॉर्मेटिंग आवश्यकताओं के तहत उपयोग करने योग्य बनाने के लिए किया जाता है, जिन्हें केवल फ़ाइन-ट्यूनिंग के माध्यम से कैप्चर करना कठिन या महंगा होता है [ब्यूरर-केलनर एट अल., 2023, स्कोलक एट अल., 2021, पोएसिया एट अल., 2022a, राबिनोविच एट अल., 2017, वेंग, 2021, डोंग एट अल., 2023, पोएसिया एट अल., 2022b, गेंग एट अल., 2023, वांग एट अल., 2023]। इस तरह की सुविधाओं को हाल ही में प्रॉम्प्टिंग लाइब्रेरीज़ और इंटरफेस में सामान्यीकृत किया गया है [माइक्रोसॉफ्ट, 2023, ब्यूरर-केल्नर एट अल., 2023, रिकार्ड, 2023ए, बी], लेकिन उनकी प्रयोज्यता उनकी स्केलिंग लागतों द्वारा सीमित हो सकती है।

निर्देशित पीढ़ी के अधिकांश कार्यान्वयन एलएलएम की शब्दावली में टोकन की संभावनाओं को निर्धारित करने के लिए उपयोग किए जाने वाले स्कोर मूल्यों को पूर्वाग्रहित करते हैं। एक सामान्य और पर्याप्त दृष्टिकोण में संपूर्ण शब्दावली पर बार-बार मूल्यांकन करना शामिल है ताकि यह निर्धारित किया जा सके कि कौन से टोकन वैध हैं - बाधाओं और पहले से सैंपल किए गए टोकन के अनुसार - और अमान्य टोकन की संभावनाओं को शून्य पर सेट करना। इस दृष्टिकोण में प्रत्येक उत्पन्न टोकन के लिए एक निश्चित O(N) लागत शामिल है, जहाँ N एलएलएम की शब्दावली का आकार है।

हम एक ऐसा दृष्टिकोण प्रस्तावित करते हैं जो मनमाने ढंग से निर्देशित पीढ़ी को शुरू करने और रोकने के लिए नियमित अभिव्यक्तियों के परिमित राज्य मशीन (FSM) सूत्रीकरण का उपयोग करता है और एक सूचकांक के निर्माण की अनुमति देता है जिसके साथ गैर-शून्य-संभावना टोकन का सेट प्रत्येक चरण में कुशलतापूर्वक प्राप्त किया जा सकता है। परिणाम एक एल्गोरिथ्म है जिसकी औसत लागत O(1) है।

नियमित अभिव्यक्ति मामले के लिए, हमारा दृष्टिकोण कुचनिक एट अल. [2023] के साथ सबसे अधिक समानता साझा करता है, जो भाषा मॉडल की शब्दावली पर परिभाषित FSM प्राप्त करने के लिए एक ट्रांसड्यूसर फॉर्मूलेशन का उपयोग करता है, और इन FSM में यहाँ वर्णित सूचकांकों के समान ही बहुत सी जानकारी और स्केलिंग लाभ होते हैं। हमारे दृष्टिकोण को पूर्ण ट्रांसड्यूसर अमूर्तता की आवश्यकता नहीं है और इसका उपयोग अंतर्निहित ऑटोमेटन और उनके कार्यान्वयन को संशोधित किए बिना मौजूदा, कुशल नियमित अभिव्यक्ति पुस्तकालयों को अधिक आसानी से विस्तारित करने के लिए किया जा सकता है।

इससे भी महत्वपूर्ण बात यह है कि हमारे इंडेक्सिंग दृष्टिकोण को CFG और LALR(1) पार्सर तक भी बढ़ाया जा सकता है ताकि लोकप्रिय डेटा प्रारूपों और प्रोग्रामिंग भाषाओं (जैसे JSON, पायथन, SQL, आदि) के अनुसार कुशल निर्देशित पीढ़ी की अनुमति मिल सके। पार्सिंग में बदलाव पारंपरिक LALR(1) पार्सर घटकों और संचालन में वृद्धि के माध्यम से किया जाता है, जिससे यह फिर से एक ऐसा दृष्टिकोण बन जाता है जिसका उपयोग मौजूदा पार्सर कार्यान्वयन को विस्तारित करने के लिए किया जा सकता है।

यह पेपर CC 4.0 लाइसेंस के अंतर्गत है।