দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সম্পর্কিত কাজ

দ্বারা Kinetograph: The Video Editing Technology Publication2m2024/05/26

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যান, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করেন।

featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সম্পর্কিত কাজ

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( ); (2) Youngjae Yu, MIR ল্যাব Yonsei University ( )।

লিঙ্কের টেবিল

4. সম্পর্কিত কাজ

মুভি সংক্ষিপ্তকরণ মুভিগুলি হল স্পষ্ট বর্ণনামূলক কাঠামো সহ দীর্ঘ ভিডিওগুলির সাধারণ উদাহরণ। গোরিনস্কি এট আল। [৭] একটি চলচ্চিত্রের দৃশ্যের একটি সর্বোত্তম গ্রাফ চেইন খুঁজে বের করার কাজ হিসাবে একটি চিত্রনাট্যের সংক্ষিপ্ত সংস্করণ তৈরি করুন। TRIPOD [২৩] হল একটি স্ক্রিনপ্লে ডেটাসেট যাতে টার্নিং পয়েন্ট টীকা থাকে। একই কাজে, সিনেমার বর্ণনা থেকে টার্নিং পয়েন্ট চিহ্নিত করার জন্য একটি স্বয়ংক্রিয় মডেল প্রস্তাব করা হয়েছে। Papalampidi এট আল। [২৪] পরে টিভি সিরিজ সিএসআই ব্যবহার করে স্বয়ংক্রিয় মুভি সংক্ষিপ্তকরণে টার্নিং পয়েন্টের উপযোগিতা প্রদর্শন করে। লি এট আল। [১৫] সংলাপ বৈশিষ্ট্য এবং ট্রান্সফরমার আর্কিটেকচারের সাথে টার্নিং পয়েন্ট সনাক্তকরণকে আরও উন্নত করে।

দীর্ঘ ভিডিও QA ভিডিও প্রশ্নের উত্তর দেওয়ার কাজটি সাহিত্যে ওপেন-এন্ডেড QA [৯] এবং মাল্টি-চয়েস সমস্যা [২৮, ২৯] উভয় আকারে ব্যাপকভাবে অধ্যয়ন করা হয়েছে। RNN-ভিত্তিক মনোযোগ নেটওয়ার্ক [9, 30, 36, 38] থেকে শুরু করে মেমরি নেটওয়ার্ক [12, 22, 27] এবং ট্রান্সফরমার [4, 6] থেকে শুরু করে এই কাজটি মোকাবেলার জন্য বেশ কয়েকটি পদ্ধতির প্রস্তাব করা হয়েছে। সম্প্রতি, মাল্টিমোডাল মডেলগুলি বৃহৎ-স্কেল ভিডিও ডেটাসেটগুলিতে প্রাক-প্রশিক্ষিত (VideoQA [31], VIOLET [5], এবং MERLOT [33] এবং MERLOT-রিজার্ভ [34]) ভিডিও প্রশ্নের উত্তর দেওয়ার ক্ষেত্রেও আশাব্যঞ্জক কর্মক্ষমতা দেখায়৷

যাইহোক, দীর্ঘ ভিডিও QA এর গুরুত্ব থাকা সত্ত্বেও তুলনামূলকভাবে কম মনোযোগ পেয়েছে। মুভিকিউএ [২৭] সমগ্র সিনেমার জন্য QA তৈরি করে, যা সাধারণত দুই দীর্ঘ ঘণ্টার মধ্যে থাকে। ড্রামাকিউএ [৩] ভিজ্যুয়াল প্রসঙ্গ হিসাবে একটি একক টিভি সিরিজ ব্যবহার করে এবং এক থেকে বিশ মিনিটের দৈর্ঘ্যের ভিডিও ক্লিপগুলি বোঝার জন্য একটি সমাধানকারীকে কাজ করে।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

আসে ট্যাগ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas