लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य

द्वारा Kinetograph: The Video Editing Technology Publication2m2024/05/26

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।

featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( ); (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( )।

लिंक की तालिका

4. संबंधित कार्य

मूवी सारांश मूवी स्पष्ट कथात्मक संरचनाओं के साथ लंबे वीडियो के विशिष्ट उदाहरण हैं। गोरिंस्की एट अल। [7] मूवी सीन की इष्टतम ग्राफ चेन खोजने के कार्य के रूप में एक पटकथा का छोटा संस्करण तैयार करते हैं। ट्राइपॉड [23] एक पटकथा डेटासेट है जिसमें टर्निंग पॉइंट एनोटेशन होते हैं। उसी काम में, मूवी कथाओं से टर्निंग पॉइंट की पहचान करने के लिए एक स्वचालित मॉडल प्रस्तावित किया गया है। पापालैम्पिडी एट अल। [24] बाद में टीवी सीरीज़ सीएसआई का उपयोग करके स्वचालित मूवी सारांश में टर्निंग पॉइंट की उपयोगिता को प्रदर्शित करते हैं। ली एट अल। [15] डायलॉग फीचर्स और ट्रांसफॉर्मर आर्किटेक्चर के साथ टर्निंग पॉइंट पहचान को और बेहतर बनाता है।

लॉन्ग वीडियो क्यूए वीडियो प्रश्न उत्तर देने के कार्य का साहित्य में ओपन-एंडेड क्यूए [9] और मल्टी-चॉइस प्रॉब्लम्स [28, 29] दोनों के रूप में बड़े पैमाने पर अध्ययन किया गया है। इस कार्य को संबोधित करने के लिए कई दृष्टिकोण प्रस्तावित किए गए हैं, आरएनएन-आधारित ध्यान नेटवर्क [9, 30, 36, 38] से लेकर मेमोरी नेटवर्क [12, 22, 27] और ट्रांसफॉर्मर [4, 6] तक। हाल ही में, बड़े पैमाने के वीडियो डेटासेट (वीडियोक्यूए [31], वायलेट [5], और मेरलोट [33] और मेरलोट-रिजर्व [34]) पर प्री-ट्रेन्ड मल्टीमॉडल मॉडल वीडियो प्रश्न उत्तर देने में भी आशाजनक प्रदर्शन दिखाते हैं।

हालाँकि, लंबे वीडियो QA को इसके महत्व के बावजूद अपेक्षाकृत कम ध्यान मिला है। MovieQA [27] पूरी मूवी पर QAs तैयार करता है, जो आम तौर पर दो लंबे घंटों तक चलता है। DramaQA [3] एक एकल टीवी सीरीज़ को विज़ुअल संदर्भ के रूप में उपयोग करता है, और एक सॉल्वर को एक से बीस मिनट की लंबाई वाली वीडियो क्लिप को समझने का काम देता है।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

लेबल

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas