সাম্প্রতিক বছরগুলিতে, বড় ভাষা মডেলের (LLMs) উত্থান ভোক্তাদের দৈনন্দিন রুটিনে উল্লেখযোগ্য পরিবর্তন এনেছে। ব্যক্তিরা এখন এই শক্তিশালী ভাষা সরঞ্জামগুলির মাধ্যমে তথ্য পুনরুদ্ধার করা, পাঠ্য রচনা করা এবং নথি পরিমার্জন করার মতো বিভিন্ন ধরণের কাজ করতে পারে। দৈনন্দিন জীবনে এলএলএম-এর এই একীকরণের ফলে কর্মক্ষেত্রে এবং ব্যক্তিগত প্রচেষ্টা উভয় ক্ষেত্রেই উৎপাদনশীলতা উল্লেখযোগ্য বৃদ্ধি পেয়েছে।
যাইহোক, এটি স্বীকার করা গুরুত্বপূর্ণ যে সমস্ত ভোক্তা এই সুবিধাগুলি সমানভাবে অনুভব করেননি। প্রকৃতপক্ষে, বিশ্বজুড়ে উল্লেখযোগ্য সংখ্যক লোক যারা কম সাধারণ ভাষায় কথা বলে তারা এলএলএম-এর সাথে যোগাযোগ করতে সক্ষম হয় না, প্রাথমিকভাবে এই নির্দিষ্ট ভাষার জন্য ডিজাইন করা ভাষার মডেলের অপর্যাপ্ততার কারণে। বর্তমানে বিশ্বে 7,000টি ভাষা কথ্য, বৃহত্তম বহুভাষিক এলএলএমগুলিকে শুধুমাত্র একশোরও কম ভাষা ব্যবহার করে প্রশিক্ষিত করা হয়েছে, এইভাবে অনেক ভাষা এবং লোককে সম্পূর্ণভাবে পিছনে ফেলে দিয়েছে।
অ-ইংরেজি ভাষাগুলিকে সমর্থন করার জন্য উচ্চ-মানের, প্রচুর ডেটা উত্সের প্রয়োজন, যা খুঁজে পাওয়া এবং অ্যাক্সেস করা কঠিন হতে পারে। এবং শুধুমাত্র সেই মডেলগুলি খারাপ কাজ করে না কিন্তু এটি দ্বারা রিপোর্ট করা হয়েছে
লো রিসোর্স ল্যাঙ্গুয়েজ (এলআরএল) এর জন্য তৈরি করা এলএলএম-এর কর্মক্ষমতা বেশ কয়েকটি মূল চ্যালেঞ্জ দ্বারা বাধাগ্রস্ত হয়।
প্রথমত, অনেক LLM-এর ফাউন্ডেশন মডেলগুলি ইন্টারনেট থেকে স্ক্র্যাপ করা ডেটার উপর নির্ভর করে, যেখানে প্রায়শই LRL-এর ব্যাপক কভারেজের অভাব থাকে। নীচের গ্রাফটি ভাষা গোষ্ঠীতে বিভক্ত ইন্টারনেট জুড়ে ডেটা বিতরণ দেখায়। যদিও আরও সাধারণ ভাষাগুলিতে প্রশিক্ষণের মডেলগুলির জন্য সম্ভাব্যভাবে শত শত GB ডেটা উপলব্ধ থাকে, গ্রাফের লেজের ভাষাগুলিতে কেবলমাত্র কয়েকশো মেগাবাইটের পরিসরে ডেটা উপলব্ধ থাকে।
অনেক LRL-এর জন্য সূক্ষ্ম-টিউন করা নির্দেশনা ডেটাসেটের অনুপস্থিতির কারণে এই সীমাবদ্ধতা আরও বড় হয়েছে। একটি নির্দেশনা ডেটাসেটে আদর্শ উত্তর সহ একটি প্রশ্ন সেট থাকে এবং এটি এলএলএম প্রশিক্ষণের একটি গুরুত্বপূর্ণ অংশ - এই ক্ষেত্রে, নির্দিষ্ট ভাষায়। এইভাবে মডেল নির্দেশাবলী অনুসরণ করতে শেখে, এবং এই সম্পদ ব্যতীত, মডেলগুলি জটিল প্রশ্ন এবং সমস্যা সমাধানের কাজগুলিতে মানুষকে সহায়তা করার পরিবর্তে ক্রমানুসারে পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে সক্ষম হয়।
উপরোক্ত ঘটনাটি এই কারণে ঘটে যে এলএলএমগুলিকে অনুক্রমিক ধাপে প্রশিক্ষণ দেওয়া হয়। প্রথম ধাপ হল প্রচুর পরিমাণে অলিখিত পাঠ্য পড়ে ভাষা শেখা যা মডেলকে ক্রমানুসারে পরবর্তী বিশ্বের ভবিষ্যদ্বাণী করার ক্ষমতা দেয়। দ্বিতীয় ধাপটি হল এই ভবিষ্যদ্বাণীমূলক আচরণকে সুনির্দিষ্ট নির্দেশাবলী অনুসরণ করার জন্য উপযোগী করা, যেমন প্রশ্নের উত্তর দেওয়া, সারসংক্ষেপ লেখা বা ডেটা বের করা। এই কারণেই ফাইন-টিউনিং ডেটাসেটগুলি এত গুরুত্বপূর্ণ, কারণ তাদের গুণমান আরও নির্ধারণ করবে ব্যবহারকারীদের প্রয়োজনীয় কাজগুলিতে সহায়তা করার জন্য এলএলএম-এর ক্ষমতা।
নিম্নলিখিত বিভাগে, আমরা সোয়াহিলির জন্য একটি উচ্চ-মানের ডেটাসেট তৈরি করার একটি পদ্ধতি উপস্থাপন করব যা এই ভাষার জন্য এলএলএম-কে সূক্ষ্ম-সুর করতে ব্যবহার করা যেতে পারে। পদ্ধতিটি যেকোনো স্বল্প-সম্পদ ভাষায় প্রয়োগ করা যেতে পারে।
সোয়াহিলি হল একটি ভাষা যা 14টি বিভিন্ন আফ্রিকান দেশে 200 মিলিয়নেরও বেশি লোক বলে এবং তানজানিয়া, কেনিয়া, উগান্ডা এবং কঙ্গো গণতান্ত্রিক প্রজাতন্ত্রের সরকারী জাতীয় ভাষা। এটি নিম্ন-সম্পদ ভাষার গোষ্ঠীর অন্তর্গত এবং এটি এমন একটি ভাষার উদাহরণ যেখানে এলএলএম ফাইন-টিউনিংয়ের জন্য বাক্সের বাইরের নির্দেশনা ডেটাসেট নেই।
সাধারণভাবে, একটি ভাষার জন্য একটি সূক্ষ্ম-টিউনিং ডেটাসেট তৈরি করতে তিনটি পন্থা বিদ্যমান। প্রথমটি হল মূল্যায়নকারীদের দ্বারা একটি ডেটাসেটের সরাসরি প্রজন্ম, এই ক্ষেত্রে, ভাষা বিশেষজ্ঞরা, যার জন্য কাঙ্ক্ষিত ভাষায় প্রশ্ন এবং আদর্শ উত্তর উভয়ই বিকাশ করা প্রয়োজন। এটি সোয়াহিলি ভাষার জন্য চ্যালেঞ্জিং হতে পারে কারণ মূল্যায়নকারীদের উচ্চ-স্তরের বিশেষজ্ঞ হতে হবে এবং প্রক্রিয়াটি সাধারণত ব্যয়বহুল।
আরেকটি সম্ভাব্য সমাধান হল ইংরেজিতে একটি বিদ্যমান নির্দেশ ডেটাসেট নেওয়া এবং এটি সোয়াহিলিতে অনুবাদ করা। এটি অনুবাদকদের দ্বারা করা যেতে পারে যারা সোয়াহিলি এবং ইংরেজি উভয়ই বলতে পারেন তবে এটি সময় এবং সম্পদের নিবিড়ও হতে পারে। একটি স্বয়ংক্রিয় অনুবাদক ব্যবহার করা যেতে পারে, তবে, এটি সাধারণত অপর্যাপ্ত বা নিম্ন-মানের ফলাফলের ফলাফল দেয়।
আরেকটি সমাধান স্বয়ংক্রিয় অনুবাদকে মানব বৈধকরণের সাথে একত্রিত করে, একটি ব্যয়-দক্ষ এবং মাপযোগ্য পদ্ধতির অফার করে, যা LRL মডেলগুলি সঠিক, স্থানীয় রীতিনীতি এবং নিয়মগুলি প্রতিফলিত করে এবং যে সম্প্রদায়গুলি সেগুলি ব্যবহার করবে তাদের জন্য দরকারী তা নিশ্চিত করার জন্য গুরুত্বপূর্ণ। এই পদ্ধতিটি সোয়াহিলি থেকে ইংরেজিতে সর্বোত্তম উপলব্ধ স্বয়ংক্রিয় অনুবাদক ব্যবহার করে এবং তারপরে স্থানীয় সোয়াহিলি ভাষাভাষীদের এমন উদাহরণগুলি ফিল্টার করতে বলে যা গুণমানের মান পূরণ করে না।
সম্প্রতি একটি উন্নয়ন প্রকল্প হাতে নিয়েছে, যেখানে তারা সোয়াহিলির জন্য 15,000 আসল থেকে একটি 11,000 ফাইন-টিউনিং ডেটাসেট তৈরি করেছে
ডেটাসেটটি তখন উন্নত করতে ব্যবহার করা হয়েছিল
ডেভেলপার এবং সংস্থাগুলি একটি আরও অন্তর্ভুক্তিমূলক এআই ইকোসিস্টেম তৈরি করার চেষ্টা করে, মূল্যায়ন আরও বেশি গুরুত্বপূর্ণ হয়ে ওঠে, যেমন এলএলএম প্রশিক্ষণে মানুষের সম্পৃক্ততা। Cohere এর সাম্প্রতিক লঞ্চ