paint-brush
बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार द्वारा@textmodels
151 रीडिंग

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार

द्वारा Writings, Papers and Blogs on Text Models4m2024/06/02
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।
featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग; (2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

5. चर्चा

इस पेपर में प्रस्तुत शब्दावली अनुक्रमण निर्देशित पीढ़ी में एक निषेधात्मक रन-टाइम स्केलिंग बाधा को हटाता है। स्वाभाविक रूप से, यह प्रसंस्करण और मेमोरी के बीच एक समझौता करता है, लेकिन हमारा मानना है कि मेमोरी लागत औसतन अपेक्षाकृत कम है और - जब नहीं - पारंपरिक तरीकों से कम किया जा सकता है।


पायथन व्याकरण के थोड़े संवर्धित संस्करण का उपयोग करके हमारे परीक्षणों में, हम पाते हैं कि सरलता से निर्मित सूचकांक (यानी अप्रयुक्त और अनावश्यक पार्सर और FSM स्थिति कॉन्फ़िगरेशन वाले) अभी भी केवल 50 एमबी के आसपास हैं। इसके अलावा, इन सूचकांकों का निर्माण बिना कम किए गए DFA के साथ किया गया था, जिसका अर्थ है कि कई अनावश्यक स्थितियाँ हैं जो अनावश्यक रूप से सूचकांकों के आकार को बढ़ा रही हैं। इसी तरह, यदि स्टेट मशीनों का सटीक प्रतिनिधित्व कभी कोई समस्या है, तो यह संभव है कि कम मेमोरी आवश्यकताओं वाले अन्य स्टेट मशीन फॉर्मूलेशन पर्याप्त हो सकते हैं (जैसे NFA)।


इस कार्य के निहितार्थ तंत्रिका पाठ निर्माण तक सीमित नहीं हैं। उदाहरण के लिए, संरचित आउटपुट की आवश्यकता होने पर LLM के प्रशिक्षण या फ़ाइन-ट्यूनिंग में सहायता के लिए यहाँ वर्णित अनुक्रमण दृष्टिकोण का उपयोग किया जा सकता है। हम यह भी अनुमान लगा सकते हैं कि प्रशिक्षण के दौरान सहायक निर्माण से मॉडल को वाक्यविन्यास संबंधी विवरण सीखने की आवश्यकता कम हो सकती है।


इसके अलावा, यह विधि मौजूदा मॉडलों का मूल्यांकन करने का एक वैकल्पिक तरीका प्रदान करती है। उदाहरण के लिए, कोई हमारी विधि द्वारा उत्पन्न मास्क्ड लॉगिट और मॉडल द्वारा उत्पन्न रॉ लॉगिट के बीच विसंगति को मापने का प्रयास कर सकता है। जो बदले में मॉडल के प्रशिक्षण उद्देश्य को सूचित कर सकता है।


इस दृष्टिकोण द्वारा गणना किए गए मास्क को भाषा मॉडल में ही "उठाना" भी संभव हो सकता है। मूल रूप से, मास्क अप्रत्यक्ष रूप से यह निर्धारित करते हैं कि किन संगणनाओं को निष्पादित करने की आवश्यकता नहीं है। हमारा वर्तमान सूत्रीकरण केवल सबसे निचले स्तर पर मास्क लागू करता है, लेकिन, मॉडल की वास्तुकला में मास्क को और ऊपर उठाकर, हम अनावश्यक रूप से उन पर संचालन करने से पहले मॉडल मापदंडों के किन स्लाइस की आवश्यकता है, इसे मॉड्यूलेट करने में सक्षम हो सकते हैं। इससे कम्प्यूटेशनल लागत को और कम करने की क्षमता है।

संदर्भ

लुका ब्यूरर-केल्नर, मार्क फिशर और मार्टिन वेचेव। प्रॉम्प्टिंग प्रोग्रामिंग है: बड़े भाषा मॉडल के लिए एक क्वेरी भाषा। प्रोग्रामिंग भाषाओं पर ACM की कार्यवाही, 7 (PLDI): 1946–1969, 2023।


यिहोंग डोंग, जी ली, और ज़ी जिन। CODEP: सामान्य प्रयोजन कोड जेनरेशन के लिए व्याकरणिक Seq2Seq मॉडल। सॉफ़्टवेयर परीक्षण और विश्लेषण पर 32वें ACM SIGSOFT अंतर्राष्ट्रीय संगोष्ठी की कार्यवाही में, ISSTA 2023, पृष्ठ 188-198, न्यूयॉर्क, NY, USA, जुलाई 2023। कंप्यूटिंग मशीनरी के लिए एसोसिएशन। आईएसबीएन 9798400702211. doi: 10.1145/3597926. 3598048.


साइबो गेंग, मार्टिन जोसिफोस्की, मैक्सिम पेयर्ड और रॉबर्ट वेस्ट। भाषा मॉडल के लिए लचीला व्याकरण-आधारित विवश डिकोडिंग, मई 2023।


माइकल कुचनिक, वर्जीनिया स्मिथ और जॉर्ज एम्व्रोसियाडिस। बड़े भाषा मॉडल को रीलम के साथ मान्य करना। मशीन लर्निंग और सिस्टम की कार्यवाही, 5, 2023।


अलेक्जेंडर के. लेव, टैन ज़ी-ज़ुआन, गेब्रियल ग्रैंड, और विकाश के. मानसिंहका। संभाव्य कार्यक्रमों का उपयोग करके बड़े भाषा मॉडल का अनुक्रमिक मोंटे कार्लो संचालन। arXiv प्रीप्रिंट arXiv:2306.03081, 2023।


रेमी लौफ और ब्रैंडन टी. विलार्ड। रूपरेखा: जनरेटिव मॉडल प्रोग्रामिंग। URL //github.com/normal-computing/outlines.


Microsoft. मार्गदर्शन. Microsoft, जुलाई 2023. URL //github.com/ microsoft/guidance.


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन। arXiv प्रीप्रिंट arXiv:2201.11227, 2022a।


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन, जनवरी 2022बी।


मैक्सिम राबिनोविच, मिशेल स्टर्न, और डैन क्लेन। कोड जनरेशन और सिमेंटिक पार्सिंग के लिए एब्सट्रैक्ट सिंटैक्स नेटवर्क। arXiv प्रीप्रिंट arXiv:1704.07535, 2017।


एलेक रेडफ़ोर्ड, जेफ़री वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी और इल्या सुत्सकेवर। भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं। ओपनएआई ब्लॉग, 1(8):9, 2019।


मैट रिकार्ड. parserLLM, जुलाई 2023a. URL //github.com/r2d4/ parserllm.


मैट रिकार्ड. R2d4/rellm: किसी भी भाषा मॉडल पूर्णता से सटीक संरचना., 2023b. URL //github.com/r2d4/rellm.


टॉर्स्टन स्कोलक, नाथन शूचर, और डिज़मिट्री बहदानौ। PICARD: भाषा मॉडल से विवश ऑटो-रिग्रैसिव डिकोडिंग के लिए वृद्धिशील रूप से पार्स करना। arXiv प्रीप्रिंट arXiv:2109.05093, 2021।


रिको सेनरिच, बैरी हैडो, और एलेक्जेंड्रा बिर्च। सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1508.07909, 2015।


माइकल सिप्सर। कम्प्यूटेशन के सिद्धांत का परिचय। इंटरनेशनल थॉमसन पब्लिशिंग, 1996।


आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन. गोमेज़, \लुकाज़ कैसर, और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 30, 2017।


बैलिन वांग, ज़ी वांग, ज़ुएज़ी वांग, युआन काओ, रिफ़ ए. सोरस, और यूं किम। बड़े भाषा मॉडल के साथ डोमेन-विशिष्ट भाषा निर्माण के लिए व्याकरण संकेत, मई 2023।


लिलियन वेंग. नियंत्रणीय तंत्रिका पाठ पीढ़ी, जनवरी 2021. URL //lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/.

स्वीकृतियाँ

हम डैन गेर्लांक और डैन सिम्पसन को उनके समर्थन और रचनात्मक प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत है।


바카라사이트 바카라사이트 온라인바카라