132 रीडिंग

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय

द्वारा Kinetograph: The Video Editing Technology Publication3m2024/05/26

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।

featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( ); (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( )।

लिंक की तालिका

अमूर्त

GPT-3 जैसे बड़े भाषा मॉडल ने कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता के बिना नए कार्यों के अनुकूल होने की एक प्रभावशाली क्षमता का प्रदर्शन किया है। यह क्षमता विशेष रूप से कथात्मक प्रश्न उत्तर जैसी सेटिंग्स में प्रभावी रही है, जहाँ कार्यों की विविधता बहुत अधिक है, लेकिन उपलब्ध पर्यवेक्षण डेटा छोटा है। इस कार्य में, हम जांच करते हैं कि क्या ऐसे भाषा मॉडल अपनी शून्य-शॉट तर्क क्षमताओं को नाटक, फ़िल्मों और एनीमेशन जैसी मल्टीमीडिया सामग्री में लंबी मल्टीमॉडल कथाओं तक बढ़ा सकते हैं, जहाँ कहानी एक आवश्यक भूमिका निभाती है। हम लॉन्ग स्टोरी शॉर्ट का प्रस्ताव करते हैं, जो कथात्मक वीडियो QA के लिए एक रूपरेखा है जो पहले वीडियो की कथा को एक छोटे कथानक में सारांशित करती है और फिर प्रश्न से संबंधित वीडियो के कुछ हिस्सों को खोजती है। हम CLIPCheck के साथ दृश्य मिलान को बढ़ाने का भी प्रस्ताव करते हैं। हमारा मॉडल अत्याधुनिक पर्यवेक्षित मॉडलों से बहुत बेहतर प्रदर्शन करता है, जो लंबे वीडियो के लिए शून्य-शॉट QA की क्षमता को उजागर करता है।

1 परिचय

हाल के वीडियो QA मॉडल डेटा और एनोटेशन की सीमाओं के कारण लंबे वीडियो कथात्मक QA कार्यों [2, 13, 27] (यानी, फिल्में, नाटक और YouTube वेब वीडियो) को संभालने में चुनौतियों का सामना करते हैं। इसके परिणामस्वरूप छोटे वीडियो क्लिप [16, 17, 30] पर मुख्य रूप से दृश्य प्रश्नों के उत्तर देने से परे लंबे वीडियो कथाओं को समझने में असमर्थता होती है। ऐसे लंबे वीडियो QAs का आकार मॉडल को वीडियो के भीतर जटिल कथात्मक संरचनाओं को पूरी तरह से समझने के लिए प्रशिक्षित करने के लिए अपर्याप्त है, जिससे उप-इष्टतम प्रदर्शन प्राप्त होता है। [10] प्रदर्शित करता है कि पर्यवेक्षित मॉडल कथात्मक संदर्भ की तुलना में प्रश्न में भाषा के पूर्वाग्रहों पर अधिक निर्भर करते हैं: वे बिना कोई वीडियो संदर्भ देखे भी समान प्रदर्शन प्राप्त कर सकते हैं।

कम सामान्यीकरण के कारण होने वाली चुनौती का समाधान करने के लिए, प्रीट्रेन्ड लार्ज लैंग्वेज मॉडल (एलएलएम) का उपयोग करके शून्य-शॉट दृष्टिकोण जटिल क्यूए कार्यों से निपटने के लिए एक कुशल विकल्प हो सकता है [32], और पाठ संदर्भ सारांश [8, 37]। फिर भी, क्या ऐसे एलएलएम की कथात्मक क्यूए क्षमता वीडियो डोमेन में स्थानांतरित की जा सकती है?

हम लॉन्ग स्टोरी शॉर्ट (LSS) का प्रस्ताव करते हैं, जैसा कि चित्र 1 में दर्शाया गया है, जो वीडियो क्लिप को सुकराती मॉडल [35] से प्रेरित होकर टेक्स्ट स्क्रीनप्ले प्रारूप में अनुवादित करता है। GPT-3 [1] का उपयोग करते हुए, हम पहले लंबे वीडियो को प्लॉट की सूची में सारांशित करते हैं और फिर दिए गए प्रश्न को हल करने के लिए उत्पन्न सारांश और कच्चे वीडियो संदर्भ दोनों को नेविगेट करते हैं। हमारा जीरो-शॉट तरीका मूवीक्यूए और ड्रामाक्यूए डेटासेट में अत्याधुनिक पर्यवेक्षित तरीकों की तुलना में बेहतर परिणाम दिखाता है। इसके अलावा, हम क्लिपचेक का प्रस्ताव करते हैं, जो GPT-3 द्वारा प्रदान किए गए तर्क परिणामों के दृश्य संरेखण को बढ़ाने के लिए एक दृश्य-पाठ मिलान विधि है। संक्षेप में, हमारे मुख्य योगदान तीन गुना हैं:

हम एलएसएस प्रस्तुत करते हैं, जो एक ढांचा है जो एक लंबे वीडियो वर्णन को कथानकों की सूची में सारांशित करता है और प्रश्न से संबंधित उपकथानक को पुनः प्राप्त करता है।
हम दृश्य संकेत में CLIP आधारित मिलान के माध्यम से दृश्य संरेखण शक्ति पर विचार करने के महत्व को प्रदर्शित करते हैं।
हमारा शून्य-शॉट दृष्टिकोण मूवीक्यूए [27] और ड्रामाक्यूए [2] में अत्याधुनिक प्रदर्शन प्राप्त करता है, जो पर्यवेक्षित बेसलाइन से बेहतर प्रदर्शन करता है।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

लेबल

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas