166 रीडिंग

टूलटॉक: टूल-उपयोग करने वाले AI सहायकों के भविष्य की बेंचमार्किंग

द्वारा BotBeat.Tech: Trusted Generative AI Research Firm4m2024/05/26

बहुत लंबा; पढ़ने के लिए

टूलटॉक संवाद के माध्यम से जटिल उपकरण उपयोग पर एआई सहायकों के मूल्यांकन के लिए एक बेंचमार्क है, जो GPT-3.5 की तुलना में GPT-4 के बेहतर प्रदर्शन को प्रकट करता है, लेकिन भ्रामक तर्क और गलत समझे गए दस्तावेज़ीकरण जैसी चल रही चुनौतियों को उजागर करता है।

featured image - टूलटॉक: टूल-उपयोग करने वाले AI सहायकों के भविष्य की बेंचमार्किंग

‘AI chatbox’ Image created by HackerNoon AI Image Generator

लेखक:

(1) निकोलस फ़ार्न, माइक्रोसॉफ्ट कॉर्पोरेशन {माइक्रोसॉफ्ट कॉर्पोरेशन {[email protected]};

(2) रिचर्ड शिन, माइक्रोसॉफ्ट कॉर्पोरेशन {[email protected]}.

लिंक की तालिका

अमूर्त

बड़े भाषा मॉडल (LLM) ने तर्क और निर्णय लेने के कौशल में बड़े पैमाने पर सुधार प्रदर्शित किए हैं और उपयोगकर्ताओं के साथ स्वाभाविक बातचीत कर सकते हैं। कई हालिया कार्य बाहरी उपकरणों के साथ LLM-आधारित सहायकों को बढ़ाने का प्रयास करते हैं ताकि वे निजी या अद्यतित जानकारी तक पहुँच सकें और उपयोगकर्ताओं की ओर से कार्रवाई कर सकें। इन सहायकों के प्रदर्शन को बेहतर ढंग से मापने के लिए, यह पेपर ToolTalk का परिचय देता है, जो एक बेंचमार्क है जिसमें जटिल उपयोगकर्ता इरादे शामिल हैं जिन्हें संवाद के माध्यम से निर्दिष्ट बहु-चरणीय उपकरण उपयोग की आवश्यकता होती है। ToolTalk में 7 प्लगइन्स में समूहीकृत 28 उपकरण शामिल हैं, और इसमें प्रत्येक उपकरण का पूर्ण सिम्युलेटेड कार्यान्वयन शामिल है, जो निष्पादन प्रतिक्रिया पर निर्भर सहायकों के पूरी तरह से स्वचालित मूल्यांकन की अनुमति देता है। ToolTalk उन उपकरणों पर भी जोर देता है जो केवल संदर्भ या जानकारी खोजने के लिए उपकरणों के बजाय दुनिया को बाहरी रूप से प्रभावित करते हैं। हमने ToolTalk पर GPT-3.5 और GPT-4 का मूल्यांकन किया, जिसके परिणामस्वरूप क्रमशः 26% और 50% की सफलता दर मिली। त्रुटियों के हमारे विश्लेषण से तीन प्रमुख श्रेणियां सामने आईं और सुधार के लिए कुछ भविष्य की दिशाएँ सुझाई गईं। हम ToolTalk को //github.com/microsoft/ToolTalk पर जारी करते हैं।

1 परिचय

बड़े भाषा मॉडल (एलएलएम) प्राकृतिक भाषा को समझने, उत्पन्न करने और पाठ में हेरफेर करने से जुड़े अन्य कार्यों में प्रभावशाली कार्य कर सकते हैं। प्रीट्रेनिंग के बाद उचित समायोजन के साथ, वे उपयोगकर्ताओं के साथ धाराप्रवाह और स्वाभाविक बातचीत कर सकते हैं। हालाँकि, इस तरह की बातचीत का दायरा अभी भी सीमित है क्योंकि एलएलएम के पास अपने प्रशिक्षण डेटा के बाहर ज्ञान तक पहुँच की कमी है, सीमित गणितीय तर्क और कम्प्यूटेशनल क्षमताएँ प्रदर्शित करते हैं, और अन्यथा बाहरी दुनिया के साथ बातचीत करने में असमर्थ हैं।

इन सीमाओं को दूर करने के लिए, विभिन्न पूर्व कार्यों ने LLM-संचालित चैटबॉट को सर्च इंजन (नाकानो एट अल., 2022), कैलकुलेटर या वेब API (मियालोन एट अल., 2023) जैसे उपकरणों का उपयोग करने की क्षमता के साथ एकीकृत करने का प्रस्ताव दिया है। उपकरण उपयोग में सार्थक प्रगति करने के लिए प्रासंगिक बेंचमार्क और मूल्यांकन डेटासेट की आवश्यकता होती है जो यथार्थवादी और चुनौतीपूर्ण बातचीत के साथ इन प्रणालियों का पूरी तरह से उपयोग कर सकते हैं। इस पेपर में, हम इस लक्ष्य की ओर एक कदम के रूप में टूलटॉक का परिचय देते हैं। टूलटॉक में 178 कुल मोड़ों के साथ 78 वार्तालाप शामिल हैं, जो 7 श्रेणियों में समूहीकृत 28 अद्वितीय उपकरणों का उपयोग करते हैं, साथ ही सटीक उपकरण उपयोग को मापने के लिए एक मूल्यांकन पद्धति भी है।

टूलटॉक के हमारे डिजाइन में कई बातों पर विचार किया गया है ताकि उपयोगकर्ता द्वारा LLM-आधारित सहायक के साथ की जाने वाली सामान्य बातचीत को सर्वोत्तम तरीके से अनुकरण किया जा सके। सबसे पहले, हम यह सुनिश्चित करना चाहते थे कि टूलटॉक संवादात्मक हो, और एक ही इरादे के लिए उपयोगकर्ता और सहायक के बीच संवाद के कई दौर की अनुमति देता हो; यह दर्शाता है कि उपयोगकर्ता हमेशा अपने पूरे अनुरोध को एक ही कथन में तैयार नहीं करना चाहते हैं और सहायक से कुछ प्रतिक्रिया प्राप्त करने के बाद अतिरिक्त योग्यताएँ जोड़ सकते हैं या सुधार जारी कर सकते हैं। यह हमें उपयोगकर्ता के इरादों को शामिल करने की अनुमति देता है, जिसके लिए अस्वाभाविक रूप से लंबे कथनों के बिना टूल इनवोकेशन की एक जटिल श्रृंखला की आवश्यकता होती है। दूसरा, हम टूल कॉल का एक ग्राउंड-ट्रुथ सेट शामिल करते हैं, जिसे प्रत्येक उपयोगकर्ता कथन के लिए बनाया जाना चाहिए था, जो एक सहायक द्वारा पूर्वानुमानित टूल कॉल के विरुद्ध तुलना करने के लिए एक स्वचालित मूल्यांकन में उपयोग के लिए उपयुक्त है। तीसरा, टूलटॉक में डेटासेट में शामिल प्रत्येक टूल के निष्पादन योग्य कार्यान्वयन शामिल हैं, ताकि सहायकों के मूल्यांकन को सुविधाजनक बनाया जा सके जो पिछले टूल इनवोकेशन के परिणामों पर विचार कर सकते हैं ताकि यह तय किया जा सके कि अगला कौन सा करना है। चौथा, टूलटॉक में साइड इफ़ेक्ट (जैसे ईमेल भेजना, या कैलेंडर ईवेंट जोड़ना/हटाना) के लिए बनाए गए टूल शामिल हैं, जिन्हें हम "एक्शन टूल" कहते हैं, न कि केवल डेटाबेस क्वेरीज़ (जैसे किसी विशेष कीवर्ड वाले ईमेल की खोज करना)। यदि सहायक को उपयोगकर्ता के कार्यों को स्वचालित करना है तो ऐसे एक्शन टूल आवश्यक हैं।

हम अपने मूल्यांकन पद्धति को अपने डेटासेट डिज़ाइन के विवरण के अनुसार ढालते हैं, जो सटीक-मिलान सटीकता जैसे सामान्य मीट्रिक से परे है। विशेष रूप से, हम अलग-अलग क्रिया और गैर-क्रिया उपकरणों के आह्वान पर विचार करते हैं, यह देखते हुए कि क्रिया उपकरणों के गलत आह्वान, जैसे कि गलत व्यक्ति को संदेश भेजना, उपयोगकर्ता के लिए विशेष रूप से नकारात्मक प्रभाव डाल सकता है। दूसरी ओर, यदि सहायक सही गैर-क्रिया उपकरण आह्वान और कुछ गलत बाहरी आह्वान दोनों करता है, तो बाहरी आह्वान अभी भी उपयोगकर्ता को उपयोगी जानकारी प्रदान कर सकते हैं (भले ही यह वह न हो जो उपयोगकर्ता ने सीधे अनुरोध किया हो)। इस प्रकार, हम एक ही वार्तालाप मोड़ के भीतर प्राथमिक मीट्रिक के रूप में उपकरण आह्वान रिकॉल और गलत क्रिया दर का उपयोग करते हैं, और सफलता की वार्तालाप-स्तरीय धारणा को परिभाषित करते हैं।

हमने GPT-3.5 और GPT-4 मॉडल के साथ OpenAI के चैट कंप्लीशन API के फ़ंक्शन कॉलिंग समर्थन का उपयोग करके कार्यान्वित किए गए दो सहायकों पर ToolTalk लागू किया। हमने पाया कि gpt-3.5-turbo-0613 और gpt-4-0613 क्रमशः 26% और 50% की वार्तालाप-स्तर की सफलता दर प्राप्त करते हैं, यह दर्शाता है कि वार्तालाप सेटिंग में टूल का उपयोग अभी भी कुछ सबसे अत्याधुनिक मॉडलों के लिए एक कठिन कार्य है। फिर हम GPT-3.5 और GPT-4 वार्तालापों में विफल होने के कारणों को निर्धारित करने के लिए आगे के विश्लेषण करते हैं। हम पाते हैं कि GPT-3.5 और GPT-4 दोनों तर्कों को भ्रमित कर सकते हैं, दस्तावेज़ीकरण को समझने में विफल हो सकते हैं, और यहां तक कि किसी भी उपकरण को कॉल किए बिना किसी कार्य को पूरा करने का दावा भी कर सकते हैं।

हमारा पेपर निम्नलिखित योगदान देता है:

• हम उपकरण का उपयोग करने वाले एलएलएम-संचालित सहायकों के लिए एक संवादात्मक डेटासेट प्रस्तुत करते हैं, जिसमें उपकरणों की एक विस्तृत श्रृंखला और उपकरण आह्वान के लिए ग्राउंड ट्रुथ एनोटेशन के साथ उदाहरण वार्तालाप शामिल हैं जो स्वचालित मूल्यांकन की अनुमति देते हैं।

• हम यह सुनिश्चित करते हैं कि डेटासेट में बहु-टर्न वार्तालाप शामिल हों, जिसके लिए कई उपकरणों के उपयोग की आवश्यकता होती है, जिसमें साइड इफेक्ट वाले उपकरण भी शामिल हैं, ताकि यह बेहतर ढंग से अनुकरण किया जा सके कि उपयोगकर्ता उपकरण का उपयोग करने वाले सहायक के साथ कैसे बातचीत कर सकते हैं।

• हम एक मूल्यांकन पद्धति विकसित करते हैं जो दुष्प्रभाव वाले औजारों और बिना दुष्प्रभाव वाले औजारों के बीच अंतर को दर्शाती है।

• हम अपने डेटासेट का उपयोग करके GPT-3.5 और GPT-4 का उपयोग करके बनाए गए सहायकों का मूल्यांकन करते हैं और उनकी त्रुटियों का विश्लेषण करते हैं, जिसमें भ्रामक तर्क और गलत समझे गए दस्तावेज़ जैसे मुद्दे मिलते हैं।

यह पेपर CC 4.0 लाइसेंस के अंतर्गत है।

L O A D I N G
. . . comments & more!

About Author

BotBeat.Tech: Trusted Generative AI Research Firm@botbeat

"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

Read my stories

लेबल

tech-stories #ai-evaluation #ai-decision-making #ai-error-analysis #tooltalk-benchmark #conversational-ai-tools #large-language-models #ai-assistants-customization

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

टूलटॉक: टूल-उपयोग करने वाले AI सहायकों के भविष्य की बेंचमार्किंग

बहुत लंबा; पढ़ने के लिए

लिंक की तालिका

अमूर्त

1 परिचय

About Author

लेबल

इस लेख में चित्रित किया गया था...

संबंधित कहानियां