23 সেপ্টেম্বর হল আন্তর্জাতিক সাংকেতিক ভাষার দিবস , যেমনটি 2017 সালে জাতিসংঘ ঘোষণা করেছে। এই তারিখটি স্বপ্ন দেখার একটি ভাল উপলক্ষ (বা হতে পারে একটি লক্ষ্য নির্ধারণ) যে একটি দিন আসবে যখন সমস্ত মিডিয়া এবং প্রযুক্তি পণ্যগুলি সমানভাবে অ্যাক্সেসযোগ্য হবে সমস্ত মানুষ তাদের প্রতিবন্ধী নির্বিশেষে। আমি স্বপ্ন দেখি যে একদিন সব বধির মানুষ লাইভ স্পোর্টস স্ট্রিম দেখতে সক্ষম হবে। রিয়েল টাইমে সাংকেতিক ভাষায় অনুবাদ করা একটি কঠিন কাজ, এমনকি মানুষের দোভাষীদের জন্যও। কিন্তু যেহেতু খুব কম দক্ষ দোভাষী এবং অনেকগুলি বিভিন্ন সাইন ল্যাঙ্গুয়েজ আছে, তাই স্পোর্টস স্ট্রিমগুলি এই মুহুর্তে সত্যই সর্বজনীনভাবে অ্যাক্সেসযোগ্য হয়ে উঠতে পারে না। এই সমস্যাটি সমাধানের জন্য কৃত্রিম বুদ্ধিমত্তা (AI) ব্যবহার করা একটি খুব আকর্ষণীয় প্রযুক্তিগত চ্যালেঞ্জ এবং অবশ্যই একটি খুব ভাল কারণ। গত কয়েক বছরে এই ক্ষেত্রে অনেক কিছু করা হয়েছে, কিন্তু বাধা এখনও রয়ে গেছে। এই নিবন্ধে, আমি এই লক্ষ্যে নিবেদিত সর্বশেষ প্রযুক্তির একটি ওভারভিউ অফার করছি এবং আপনাকে এই ফলাফলগুলি নিয়ে আলোচনা করতে এবং এই ধাঁধাটি ফাটানোর জন্য অবদান রাখতে আমন্ত্রণ জানাচ্ছি।
খেলাধুলা সবার জন্য নয়?
খেলাধুলা রাজা, সময়কাল। প্রথম প্রাচীন অলিম্পিক থেকে (এবং সম্ভবত তার আগেও) এটি মানব প্রকৃতির প্রতিযোগিতামূলক অংশকে অহিংস আকারে রূপান্তরিত করতে সাহায্য করেছিল। এটি বিশ্বব্যাপী এবং রাজনৈতিক সীমানা ছাড়িয়ে লক্ষ লক্ষ মানুষকে একত্রিত করেছে। এটি আধুনিক ডিজিটাল এবং মিডিয়া মহাবিশ্বেরও শাসক। অনুসারে বিশ্ব ক্রীড়া বাজার 2022 সালে $486.61 বিলিয়ন থেকে 2023 সালে $512.14 বিলিয়ন একটি চক্রবৃদ্ধি বার্ষিক বৃদ্ধির হার (CAGR) 5.2% এ বৃদ্ধি পেয়েছে। ক্রীড়া বাজার 2027 সালে 5.0% এর CAGR-এ আরও বৃদ্ধি পেয়ে $623.63 বিলিয়ন হবে বলে আশা করা হচ্ছে। এটি বিশ্ব অর্থনীতির বৃদ্ধির চেয়ে দ্রুততর, যা 2022 সালের আনুমানিক 3.5% থেকে 2023 এবং 2024 উভয় ক্ষেত্রেই 3.0%-এ নেমে আসবে বলে অনুমান করা হয়েছে। . 2020 সালে বিশ্বব্যাপী অনলাইন লাইভ ভিডিও স্পোর্টস স্ট্রিমিং বাজারের মূল্য ছিল $18.11 বিলিয়ন এবং 2028 সালে 87.33 বিলিয়ন ডলারে পৌঁছাবে। খেলাধুলার জনপ্রিয়তা আরও চিত্রিত করে, একটি 2022 প্রকাশ করেছে যে ইউএস রৈখিক টিভি বিজ্ঞাপনের আয়ের 31% লাইভ স্পোর্টস প্রোগ্রামিংয়ের উপর নির্ভর করে, যদিও উপলব্ধ সম্প্রচার প্রোগ্রাম সামগ্রীর মাত্র 2.7% স্পোর্টস অ্যাকাউন্টিং।
যাইহোক, এই বিশাল শিল্পটি বিশ্বের জনসংখ্যার একটি উল্লেখযোগ্য অংশ (আংশিক বা সম্পূর্ণ) মিস করে। ডেটা প্রস্তাব করে যে বিশ্বে 70 মিলিয়ন বধির মানুষ রয়েছে, যা পৃথিবীর 8.05-বিলিয়ন জনসংখ্যার 10% এর চেয়েও কম। সমস্যাটি অগ্রসর হয়: বিশ্ব স্বাস্থ্য সংস্থা আশা করে যে 2050 সালের মধ্যে 2.5 বিলিয়ন মানুষ (অথবা সমস্ত মানুষের প্রায় এক চতুর্থাংশ) কিছুটা শ্রবণশক্তি হ্রাস পাবে। অবশ্যই, অনেক ক্রীড়া সম্প্রচারের সাবটাইটেল আছে। কিন্তু সমস্যা হল যে অনেক বধির মানুষের পড়তে এবং লিখতে শিখতে অসুবিধা হয়। বেশিরভাগ দেশে বধিরদের মধ্যে নিরক্ষরতার হার , একটি সত্যিই বিস্ময়কর হার. অনেক সম্প্রচার, বিশেষ করে টিভিতে, লাইভ সাইন ল্যাঙ্গুয়েজ ইন্টারপ্রেটার আছে। কিন্তু, আবার, একটি সমস্যা আছে. সারা বিশ্বে বধির লোকেরা 300 টিরও বেশি বিভিন্ন সাইন ভাষা ব্যবহার করে এবং তাদের বেশিরভাগই পারস্পরিকভাবে দুর্বোধ্য। একটি সম্প্রচার বিশ্বব্যাপী অ্যাক্সেসযোগ্য করার জন্য 300 দোভাষী নিয়োগ করা স্পষ্টতই অসম্ভব। কিন্তু আমরা যদি পরিবর্তে একটি এআই নিয়োগ করি?
জীবনের চিহ্ন (ভাষা)
এই কাজের অসুবিধা সম্পূর্ণরূপে বোঝার জন্য, আসুন আমরা সংক্ষিপ্তভাবে আলোচনা করি যে সাংকেতিক ভাষাগুলি আসলে কী। ঐতিহাসিকভাবে, তারা প্রায়শই সাধারণ শ্রবণশক্তিতে আশীর্বাদপ্রাপ্ত ব্যক্তিদের দ্বারা ভাষা ফ্রাঙ্কা হিসাবে ব্যবহৃত হত, কিন্তু বিভিন্ন ভাষায় কথা বলত। সবচেয়ে পরিচিত উদাহরণ হল সাংকেতিক ভাষা 19 শতকের উত্তর আমেরিকায়। বিভিন্ন উপজাতির ভাষা ভিন্ন ছিল, কিন্তু তাদের জীবনযাত্রা এবং পরিবেশ বেশ অভিন্ন ছিল, যা তাদের সাধারণ প্রতীক খুঁজে পেতে সাহায্য করেছিল। উদাহরণস্বরূপ, আকাশের বিপরীতে আঁকা একটি বৃত্তের অর্থ চাঁদ, বা চাঁদের মতো ফ্যাকাশে কিছু। যোগাযোগের অনুরূপ উপায় আফ্রিকা এবং অস্ট্রেলিয়ার উপজাতিরা ব্যবহার করেছিল।
যাইহোক, বধিরদের দ্বারা ব্যবহৃত সাংকেতিক ভাষার ক্ষেত্রে এটি হয় না। তারা প্রতিটি অঞ্চলে, দেশে স্বাধীনভাবে বিকাশ করছে এবং কখনও কখনও তারা এমনকি শহর থেকে শহরে পৃথক হয়। উদাহরণস্বরূপ, মার্কিন যুক্তরাষ্ট্রে ব্যাপকভাবে ব্যবহৃত আমেরিকান সাইন ল্যাঙ্গুয়েজ (ASL) ব্রিটিশ সাইন ল্যাঙ্গুয়েজ থেকে সম্পূর্ণ আলাদা যদিও উভয় দেশই ইংরেজিতে কথা বলে। হাস্যকরভাবে, ASL হয় (LSF) কারণ একজন ফরাসী বধির লোক, লরেন্ট ক্লার্ক, 19 শতকে মার্কিন যুক্তরাষ্ট্রে বধিরদের জন্য প্রথম শিক্ষকদের একজন। একটি জনপ্রিয় বিশ্বাসের বিপরীতে, কোন সত্যিকারের আন্তর্জাতিক সাইন ভাষা নেই। একটি তৈরি করার চেষ্টা ছিল , 1951 সালে ইন্টারন্যাশনাল ফেডারেশন অফ দ্য ডেফ দ্বারা ধারনা করা হয়েছিল। যাইহোক, শ্রবণশক্তির মানুষের জন্য এটির অ্যানালগ, এস্পেরান্তো, এটি একটি সত্যিকারের সমাধান হয়ে উঠতে প্রায় ততটা জনপ্রিয় নয়।
সাংকেতিক ভাষায় অনুবাদ নিয়ে আলোচনা করার সময় আরেকটি গুরুত্বপূর্ণ বিষয় মনে রাখতে হবে, যেগুলি তাদের নিজস্ব ভাষা, আমরা যে ভাষাগুলি শুনতে পাই তার থেকে সম্পূর্ণ আলাদা। একটি খুব সাধারণ ভুল ধারণা হল যে সাংকেতিক ভাষাগুলি শ্রবণ দ্বারা কথ্য ভাষাগুলিকে অনুকরণ করছে। বিপরীতভাবে, তাদের ভাষাগত কাঠামো, ব্যাকরণ এবং বাক্য গঠন সম্পূর্ণ ভিন্ন। উদাহরণস্বরূপ, ASL এর একটি বিষয়-মন্তব্য সিনট্যাক্স রয়েছে, যখন ইংরেজি বিষয়-অবজেক্ট-ক্রিয়া নির্মাণ ব্যবহার করে। সুতরাং, সিনট্যাক্স পরিপ্রেক্ষিতে, ASL আসলে এটি ইংরেজির তুলনায়। সাইন বর্ণমালা আছে (তাদের সম্পর্কে আরও দেখুন ), কিন্তু এগুলি স্থান এবং মানুষের সঠিক নামের বানান করতে ব্যবহৃত হয়, শব্দ রচনা করতে নয়।
বাধা ভেঙ্গে
কথ্য এবং সাংকেতিক ভাষার সংযোগ স্থাপনের জন্য অনেক প্রচেষ্টা ছিল অঙ্গভঙ্গি স্বীকৃতির জন্য। তাদের মধ্যে কিছু 1980 এর দশকের। সময়ের সাথে সাথে, আরো পরিশীলিত গ্যাজেট যোগ করা হয়েছে, যেমন অ্যাক্সিলোমিটার এবং সব ধরণের সেন্সর। তবে এসব চেষ্টায় সফলতা এসেছে . এবং যাইহোক, তাদের বেশিরভাগই সাংকেতিক ভাষাগুলিকে কথ্য ভাষায় অনুবাদ করার দিকে মনোনিবেশ করেছিল, অন্যভাবে নয়। কম্পিউটার ভিশন, স্পিচ রিকগনিশন, নিউরাল নেটওয়ার্ক, মেশিন লার্নিং এবং এআই-এর সাম্প্রতিক উন্নয়ন আশা করে যে কথ্য থেকে সাংকেতিক ভাষায় সরাসরি অনুবাদও সম্ভব।
সবচেয়ে সাধারণ পথ হল সাংকেতিক ভাষা অঙ্গভঙ্গি এবং আবেগ প্রদর্শনের জন্য 3d অবতার ব্যবহার করা, বক্তৃতা এবং অন্যান্য ডেটা ইনপুট হিসাবে ব্যবহার করা। একটি উল্লেখযোগ্য বৈশিষ্ট্য জাপানের ব্রডকাস্ট কর্পোরেশন অ্যানিমেটেড কার্টুন-সদৃশ অবতার দ্বারা প্রদর্শিত সাইন ল্যাঙ্গুয়েজে খেলোয়াড়দের নাম, স্কোর ইত্যাদির মতো ক্রীড়া ডেটা অনুবাদ করতে সক্ষম করে৷ ইভেন্ট সংগঠক বা অন্যান্য সংস্থার কাছ থেকে প্রাপ্ত ডেটা ব্যাখ্যা করা হয় এবং টেমপ্লেটে রাখা হয় এবং তারপর অবতার দ্বারা প্রকাশ করা হয়। যাইহোক, শুধুমাত্র সীমিত ধরণের ডেটা এইভাবে অনুবাদ করা যেতে পারে। এনএইচকে বলে যে এটি প্রযুক্তির বিকাশ অব্যাহত রেখেছে যাতে অবতাররা আরও মানবিক পদ্ধতিতে আবেগ প্রকাশ করতে পারে।
লেনোভো এবং একটি ব্রাজিলিয়ান ইনোভেশন হাব CESAR তারা AI নিয়োগকারী লোকদের শোনার জন্য একটি সাংকেতিক ভাষা অনুবাদক তৈরি করছিল। একইভাবে, SLAIT (যা সাইন ল্যাঙ্গুয়েজ এআই অনুবাদককে বোঝায়) একটি শিক্ষামূলক টুল যা একটি ইন্টারেক্টিভ উপায়ে ASL শিখতে সাহায্য করে। যদিও এই কাজগুলি আমাদের সুযোগের থেকে আলাদা, এই প্রকল্পগুলির দ্বারা তৈরি কম্পিউটার দৃষ্টি কৌশল এবং AI প্রশিক্ষণ মডেলগুলি ভবিষ্যতে বক্তৃতা থেকে সাংকেতিক ভাষাতে অনুবাদ প্রদানের জন্য খুব কার্যকর হতে পারে।
অন্যান্য স্টার্টআপগুলি আমাদের আলোচনার বিষয়ের কাছাকাছি আসছে। উদাহরণস্বরূপ, Signapse একটি সমাধান সহ যা পাঠ্যকে সাংকেতিক ভাষায় অনুবাদ করতে পারে ফটো-বাস্তববাদী অ্যানিমেটেড অবতার গতি হিসাবে প্রদর্শিত। কোম্পানি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক এবং গভীর শিক্ষার কৌশল ব্যবহার করে, সেইসাথে একটি ক্রমাগত উন্নয়নশীল ভিডিও ডাটাবেস ব্যবহার করে (তাদের সমকক্ষ-পর্যালোচিত নিবন্ধে আরও ) যাইহোক, এই প্ল্যাটফর্মের লক্ষ্য বেশিরভাগ পাবলিক ঘোষণা এবং ওয়েবসাইটের পাঠ্য অনুবাদ করা। অন্য কথায়, এটি এখনও বাস্তব-সময়ের লাইভ অনুবাদ থেকে অনেক দূরে বলে মনে হচ্ছে।
ইসরায়েল-ভিত্তিক স্টার্টআপ CODA আমাদের লক্ষ্যে আরও এক ধাপ এগিয়েছে। এটি একটি AI-চালিত অডিও-টু-সাইন ট্রান্সলেশন টুল তৈরি করেছে এবং দাবি করে যে এটি কাজ করে . এটি বর্তমানে পাঁচটি উৎস ভাষায় তার পরিষেবা প্রদান করে: ইংরেজি, হিব্রু, ফরাসি, স্প্যানিশ এবং ইতালীয়। পরবর্তীতে, CODA-এর লক্ষ্য ভারত এবং চীনের মতো উচ্চ জনসংখ্যার দেশগুলির একাধিক ভিন্ন সাংকেতিক ভাষা যোগ করা।
যুক্তিযুক্তভাবে আমাদের স্বপ্নের সবচেয়ে কাছের মিলটি Baidu AI ক্লাউড তার ডিজিটাল অবতার প্ল্যাটফর্ম Xiling-এ উপস্থাপন করেছে। প্লাটফর্ম বেইজিং 2022 প্যারালিম্পিক শীতকালীন গেমসের সম্প্রচার সহ শ্রবণ-প্রতিবন্ধী দর্শকদের প্রদান করতে। স্থানীয় মিডিয়া বলেছে যে এটি "মিনিটের মধ্যে" সাইন ল্যাঙ্গুয়েজ অনুবাদ এবং লাইভ ব্যাখ্যার জন্য ডিজিটাল অবতার তৈরি করতে সক্ষম।
উপসংহার
স্পিচ-টু-সাইন ট্রান্সলেশন ডেভেলপ করার পরবর্তী ধাপ হবে আউটপুটকে যতটা সম্ভব সাইন ল্যাঙ্গুয়েজে প্রসারিত করা এবং অনুবাদের জন্য প্রয়োজনীয় সময়ের ব্যবধান মিনিট থেকে সেকেন্ডে কমানো। দুটি কাজই প্রধান চ্যালেঞ্জের প্রতিনিধিত্ব করে। আউটপুট ফিডে আরও সাংকেতিক ভাষা যোগ করার অর্থ হল হাত এবং শরীরের অঙ্গভঙ্গির পাশাপাশি মুখের অভিব্যক্তিগুলির ব্যাপক ডেটাবেস তৈরি এবং স্থায়ীভাবে বিকাশ করা। সময়ের ব্যবধান কমানো আরও বেশি গুরুত্বপূর্ণ, কারণ খেলাধুলা সব মুহূর্ত সম্পর্কে। এমনকি এক মিনিটের ব্যবধানের অর্থ হল স্ট্রীমটি বিলম্বিত হওয়া উচিত নয়তো দর্শকরা খেলাটির মূল সারমর্মটি মিস করবেন। অনুবাদের জন্য প্রয়োজনীয় সময় আরও বিস্তৃত হার্ডওয়্যার অবকাঠামো তৈরি করে, সবচেয়ে সাধারণ বক্তৃতা টেমপ্লেটগুলির ডেটাবেস তৈরি করে কমানো যেতে পারে যা শব্দগুচ্ছ শেষ হওয়ার আগেই স্বীকৃত হতে পারে। এই সব একটি ব্যয়বহুল উদ্যোগ মত শোনাতে পারে. কিন্তু একদিকে, লক্ষ লক্ষ মানুষের জীবনমান উন্নত করা অমূল্য। অন্যদিকে, আমরা শুধু দানের কথা বলি না। সম্প্রচারগুলি যে অতিরিক্ত শ্রোতারা পাবে এবং স্পনসরের অর্থের কথা চিন্তা করুন। সব মিলিয়ে, এটি বেশ জয়-জয়ের খেলা হতে পারে।
দেখে মনে হচ্ছে টেক মেজররাও রেসে যোগ দিচ্ছে। জিপিয়া নামের একটি ক্যারিয়ার পোর্টাল সম্প্রতি এমন ইঙ্গিত দিয়েছে গুগল সাংকেতিক ভাষার দোভাষীরা সাধারণত মার্কিন যুক্তরাষ্ট্রে যে বেতন আশা করে তার দ্বিগুণেরও বেশি ($110,734 বনাম গড় $43,655)। এই হারে, একজন ভাষা দোভাষী মার্কিন যুক্তরাষ্ট্রে একজন গড় সফ্টওয়্যার ইঞ্জিনিয়ারের চেয়ে প্রায় 10% বেশি পাবেন ( ) এটি একটি ইঙ্গিত হতে পারে যে আমরা শীঘ্রই একটি বড় অগ্রগতির আশা করছি...
অনুগ্রহ করে নির্দ্বিধায় মন্তব্য করুন এবং আমাদের সমাধান খুঁজতে বাহিনীতে যোগদান করুন!