166 পড়া

টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা

দ্বারা BotBeat.Tech: Trusted Generative AI Research Firm4m2024/05/26

অতিদীর্ঘ; পড়তে

ToolTalk হল সংলাপের মাধ্যমে জটিল টুল ব্যবহারের উপর AI সহকারীর মূল্যায়ন করার জন্য একটি মানদণ্ড, GPT-4-এর GPT-3.5-এর তুলনায় উচ্চতর কর্মক্ষমতা প্রকাশ করে, কিন্তু হ্যালুসিনেটেড আর্গুমেন্ট এবং ভুল বোঝাবুঝি ডকুমেন্টেশনের মতো চলমান চ্যালেঞ্জগুলিকে হাইলাইট করে।

featured image - টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা

‘AI chatbox’ Image created by HackerNoon AI Image Generator

লেখক:

(1) নিকোলাস ফার্ন, মাইক্রোসফ্ট কর্পোরেশন {Microsoft Corporation {[email protected]};

(2) রিচার্ড শিন, মাইক্রোসফট কর্পোরেশন {[email protected]}।

লিঙ্কের টেবিল

উপসংহার, পুনরুত্পাদনযোগ্যতা এবং রেফারেন্স

উ: টুলের সম্পূর্ণ তালিকা

B. দৃশ্যকল্প প্রম্পট

C. অবাস্তব প্রশ্ন

D. পূর্ববর্তী কাজের তুলনামূলক সূক্ষ্মতা

বিমূর্ত

লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) যুক্তি এবং সিদ্ধান্ত গ্রহণের দক্ষতায় ব্যাপক উন্নতি প্রদর্শন করেছে এবং ব্যবহারকারীদের সাথে স্বাভাবিক কথোপকথন করতে পারে। অনেক সাম্প্রতিক কাজ বহিরাগত সরঞ্জামগুলির সাথে এলএলএম-ভিত্তিক সহকারীকে বাড়ানোর চেষ্টা করে যাতে তারা ব্যক্তিগত বা আপ-টু-ডেট তথ্য অ্যাক্সেস করতে পারে এবং ব্যবহারকারীদের পক্ষে কাজ করতে পারে। এই সহকারীর কর্মক্ষমতা আরও ভালভাবে পরিমাপ করার জন্য, এই কাগজটি ToolTalk প্রবর্তন করে, জটিল ব্যবহারকারীর অভিপ্রায় নিয়ে গঠিত একটি বেঞ্চমার্ক যা সংলাপের মাধ্যমে নির্দিষ্ট করা বহু-পদক্ষেপ সরঞ্জাম ব্যবহার প্রয়োজন। ToolTalk-এ 7টি প্লাগইনে গোষ্ঠীভুক্ত 28টি টুল রয়েছে এবং এতে প্রতিটি টুলের সম্পূর্ণ সিমুলেটেড ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যা এক্সিকিউশন ফিডব্যাকের উপর নির্ভরশীল সহকারীর সম্পূর্ণ স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয়। ToolTalk এমন সরঞ্জামগুলির উপরও জোর দেয় যা শুধুমাত্র তথ্য উল্লেখ বা অনুসন্ধানের জন্য সরঞ্জামগুলির পরিবর্তে বাহ্যিকভাবে বিশ্বকে প্রভাবিত করে৷ আমরা ToolTalk-এ GPT-3.5 এবং GPT-4 মূল্যায়ন করি যার ফলে সাফল্যের হার যথাক্রমে 26% এবং 50%। আমাদের ত্রুটিগুলির বিশ্লেষণ তিনটি প্রধান বিভাগ প্রকাশ করে এবং উন্নতির জন্য কিছু ভবিষ্যত দিক নির্দেশনা দেয়৷ আমরা //github.com/microsoft/ToolTalk-এ ToolTalk প্রকাশ করি।

1। পরিচিতি

বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা বোঝা, প্রজন্ম এবং পাঠ্যের হেরফের জড়িত অন্যান্য কাজগুলিতে চিত্তাকর্ষক কার্য সম্পাদন করতে পারে। প্রাক-প্রশিক্ষণের পরে উপযুক্ত সমন্বয়ের মাধ্যমে, তারা ব্যবহারকারীদের সাথে সাবলীল এবং স্বাভাবিক কথোপকথন করতে পারে। যাইহোক, এই ধরনের কথোপকথনের সুযোগ এখনও সীমিত LLM-দের তাদের প্রশিক্ষণের তথ্যের বাইরে জ্ঞানের অ্যাক্সেসের অভাব, সীমিত গাণিতিক যুক্তি এবং গণনাগত ক্ষমতা প্রদর্শন করে এবং অন্যথায় বাইরের বিশ্বের সাথে যোগাযোগ করতে অক্ষম।

এই সীমাবদ্ধতাগুলি কাটিয়ে উঠতে, বিভিন্ন পূর্ববর্তী কাজগুলি সার্চ ইঞ্জিন (নাকানো এট আল।, 2022), ক্যালকুলেটর, বা ওয়েব এপিআই (মিয়ালন এট আল।, 2023) এর মতো সরঞ্জামগুলি ব্যবহার করার ক্ষমতা সহ এলএলএম-চালিত চ্যাটবটগুলিকে একীভূত করার প্রস্তাব করেছে। টুল ব্যবহারে অর্থপূর্ণ অগ্রগতি করার জন্য প্রাসঙ্গিক বেঞ্চমার্ক এবং মূল্যায়ন ডেটাসেট প্রয়োজন যা বাস্তবসম্মত এবং চ্যালেঞ্জিং কথোপকথনের সাথে এই সিস্টেমগুলিকে সম্পূর্ণরূপে ব্যবহার করতে পারে। এই গবেষণাপত্রে, আমরা এই লক্ষ্যের দিকে একটি পদক্ষেপ হিসাবে ToolTalk চালু করি। ToolTalk-এ 78টি কথোপকথন রয়েছে যার মধ্যে 178টি মোট বাঁক রয়েছে, 28টি অনন্য টুল ব্যবহার করে 7টি বিভাগে বিভক্ত করা হয়েছে, সাথে একটি মূল্যায়ন পদ্ধতি সঠিক টুল ব্যবহার পরিমাপের জন্য তৈরি করা হয়েছে।

একটি ব্যবহারকারী LLM-ভিত্তিক সহকারীর সাথে হতে পারে এমন সাধারণ কথোপকথনগুলিকে সর্বোত্তমভাবে অনুকরণ করতে ToolTalk-এর আমাদের ডিজাইনকে বেশ কিছু বিবেচনার কথা জানানো হয়েছে। প্রথমত, আমরা নিশ্চিত করতে চেয়েছিলাম যে ToolTalk কথোপকথন, এবং একক অভিপ্রায়ের জন্য ব্যবহারকারী এবং সহকারীর মধ্যে একাধিক রাউন্ডের সংলাপের অনুমতি দেয়; প্রতিফলিত করে কিভাবে ব্যবহারকারীরা সবসময় তাদের সম্পূর্ণ অনুরোধ একটি উচ্চারণে প্রণয়ন করতে নাও পারে এবং সহকারীর কাছ থেকে কিছু প্রতিক্রিয়া পাওয়ার পরে অতিরিক্ত যোগ্যতা যোগ করতে বা সংশোধন করতে পারে। এটি আমাদের অস্বাভাবিকভাবে দীর্ঘ উচ্চারণ ছাড়াই জটিল সিরিজের টুল আহ্বানের প্রয়োজন ব্যবহারকারীর অভিপ্রায় অন্তর্ভুক্ত করতে দেয়। দ্বিতীয়ত, আমরা টুল কলগুলির একটি গ্রাউন্ড-ট্রুথ সেট অন্তর্ভুক্ত করি যা প্রতিটি ব্যবহারকারীর উচ্চারণের জন্য করা উচিত ছিল, একটি স্বয়ংক্রিয় মূল্যায়নে ব্যবহারের জন্য উপযুক্ত যা একজন সহকারীর দ্বারা পূর্বাভাসিত টুল কলগুলির সাথে তুলনা করে৷ তৃতীয়ত, ToolTalk-এ ডেটাসেটে অন্তর্ভুক্ত প্রতিটি টুলের এক্সিকিউটেবল ইমপ্লিমেন্টেশন অন্তর্ভুক্ত রয়েছে, যাতে সহায়কদের মূল্যায়ন সহজতর করা যায় যেগুলি পরবর্তী টুলের আমন্ত্রণ থেকে সিদ্ধান্ত নিতে পারে যে ফলাফলগুলি বিবেচনা করতে পারে। চতুর্থত, ToolTalk-এর মধ্যে পার্শ্বপ্রতিক্রিয়া (যেমন ইমেল পাঠানো, বা ক্যালেন্ডার ইভেন্টগুলি যোগ করা/মোছার মতো) উদ্দেশ্যে এমন সরঞ্জামগুলি অন্তর্ভুক্ত রয়েছে যাকে আমরা শুধুমাত্র ডাটাবেস কোয়েরি করার পরিবর্তে "অ্যাকশন টুলস" হিসাবে উল্লেখ করি (যেমন একটি নির্দিষ্ট কীওয়ার্ড ধারণকারী ইমেলগুলি অনুসন্ধান করা) ) সহকারী যদি ব্যবহারকারীর কাজগুলি স্বয়ংক্রিয় করতে হয় তবে এই ধরনের অ্যাকশন সরঞ্জামগুলি প্রয়োজনীয়।

আমরা আমাদের মূল্যায়ন পদ্ধতিকে আমাদের ডেটাসেট ডিজাইনের বিশদ অনুযায়ী তৈরি করি, সাধারণ মেট্রিক্স যেমন সঠিক-মিল নির্ভুলতার বাইরে গিয়ে। বিশেষ করে, আমরা আলাদাভাবে অ্যাকশন এবং নন-অ্যাকশন টুলের আহ্বান বিবেচনা করি, এই বিবেচনায় যে অ্যাকশন টুলে ভুল আহ্বান, যেমন ভুল ব্যক্তিকে বার্তা পাঠানো, ব্যবহারকারীর জন্য বিশেষভাবে নেতিবাচক প্রভাব ফেলতে পারে। অন্যদিকে, যদি সহকারী সঠিক নন-অ্যাকশন টুল আহ্বান এবং কিছু ভুল বহিরাগত উভয়ই করে, বহিরাগতগুলি এখনও ব্যবহারকারীকে দরকারী তথ্য সরবরাহ করতে পারে (এমনকি যদি ব্যবহারকারী সরাসরি অনুরোধ না করেও)। যেমন, আমরা একটি একক কথোপকথনমূলক মোড়ের মধ্যে প্রাথমিক মেট্রিক্স হিসাবে টুল আহ্বান প্রত্যাহার এবং ভুল অ্যাকশন রেট ব্যবহার করি এবং সাফল্যের একটি কথোপকথন-স্তরের ধারণা সংজ্ঞায়িত করি।

আমরা GPT-3.5 এবং GPT-4 মডেলের সাথে OpenAI-এর চ্যাট কমপ্লিশন API-এর ফাংশন কলিং সমর্থন ব্যবহার করে বাস্তবায়িত দুটি সহকারীর উপর ToolTalk প্রয়োগ করি। আমরা দেখতে পেয়েছি যে gpt-3.5-turbo-0613 এবং gpt-4-0613 যথাক্রমে 26% এবং 50% একটি কথোপকথন-স্তরের সাফল্যের হার অর্জন করে, এটি প্রদর্শন করে যে কথোপকথনমূলক সেটিংয়ে সরঞ্জামের ব্যবহার এমনকি বেশিরভাগের জন্য এখনও একটি কঠিন কাজ। অত্যাধুনিক মডেল। আমরা তারপর GPT-3.5 এবং GPT-4 কথোপকথনে ব্যর্থ হওয়ার কারণগুলি নির্ধারণ করতে আরও বিশ্লেষণ পরিচালনা করি। আমরা দেখতে পাই যে GPT-3.5 এবং GPT-4 উভয়ই আর্গুমেন্টকে হ্যালুসিনেট করতে পারে, ডকুমেন্টেশন বুঝতে ব্যর্থ হতে পারে এবং এমনকি সরাসরি দাবি করতে পারে যে তারা কোনো টুলস ছাড়াই একটি কাজ সম্পন্ন করেছে।

আমাদের কাগজ নিম্নলিখিত অবদান করে:

• আমরা LLM-চালিত সহকারীর জন্য টুল-ব্যবহারের জন্য একটি কথোপকথনমূলক ডেটাসেট প্রবর্তন করি, যাতে একটি স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয় এমন টুল আহ্বানের জন্য গ্রাউন্ড ট্রুথ অ্যানোটেশন সহ বিস্তৃত সরঞ্জাম এবং উদাহরণ কথোপকথন রয়েছে।

• আমরা নিশ্চিত করি যে ডেটাসেটে মাল্টি-টার্ন কথোপকথন রয়েছে যাতে ব্যবহারকারীরা কীভাবে একটি টুল-ব্যবহারকারী সহকারীর সাথে ইন্টারঅ্যাক্ট করতে পারে তা আরও ভালভাবে অনুকরণ করার জন্য পার্শ্ব প্রতিক্রিয়া সহ একাধিক সরঞ্জামের ব্যবহার প্রয়োজন।

• আমরা একটি মূল্যায়ন পদ্ধতি তৈরি করি যা পার্শ্বপ্রতিক্রিয়া সহ সরঞ্জাম এবং সেগুলি ছাড়া সরঞ্জামগুলির মধ্যে পার্থক্য প্রতিফলিত করে৷

• আমরা আমাদের ডেটাসেট ব্যবহার করে GPT-3.5 এবং GPT-4 ব্যবহার করে তৈরি সহকারীর মূল্যায়ন করি এবং তাদের ত্রুটিগুলি বিশ্লেষণ করি, হ্যালুসিনেটেড আর্গুমেন্ট এবং ভুল বোঝাবুঝি ডকুমেন্টেশনের মতো সমস্যাগুলি খুঁজে বের করি।

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে ।

L O A D I N G
. . . comments & more!

About Author

BotBeat.Tech: Trusted Generative AI Research Firm@botbeat

"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

Read my stories

আসে ট্যাগ

tech-stories #ai-evaluation #ai-decision-making #ai-error-analysis #tooltalk-benchmark #conversational-ai-tools #large-language-models #ai-assistants-customization

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

টুলটক: এআই অ্যাসিস্ট্যান্টদের টুল-ব্যবহারের ভবিষ্যত বেঞ্চমার্ক করা

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত

1। পরিচিতি

About Author

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

সম্পর্কিত গল্প