paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय द्वारा@kinetograph
132 रीडिंग

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( ); (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( )।

लिंक की तालिका

अमूर्त

GPT-3 जैसे बड़े भाषा मॉडल ने कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता के बिना नए कार्यों के अनुकूल होने की एक प्रभावशाली क्षमता का प्रदर्शन किया है। यह क्षमता विशेष रूप से कथात्मक प्रश्न उत्तर जैसी सेटिंग्स में प्रभावी रही है, जहाँ कार्यों की विविधता बहुत अधिक है, लेकिन उपलब्ध पर्यवेक्षण डेटा छोटा है। इस कार्य में, हम जांच करते हैं कि क्या ऐसे भाषा मॉडल अपनी शून्य-शॉट तर्क क्षमताओं को नाटक, फ़िल्मों और एनीमेशन जैसी मल्टीमीडिया सामग्री में लंबी मल्टीमॉडल कथाओं तक बढ़ा सकते हैं, जहाँ कहानी एक आवश्यक भूमिका निभाती है। हम लॉन्ग स्टोरी शॉर्ट का प्रस्ताव करते हैं, जो कथात्मक वीडियो QA के लिए एक रूपरेखा है जो पहले वीडियो की कथा को एक छोटे कथानक में सारांशित करती है और फिर प्रश्न से संबंधित वीडियो के कुछ हिस्सों को खोजती है। हम CLIPCheck के साथ दृश्य मिलान को बढ़ाने का भी प्रस्ताव करते हैं। हमारा मॉडल अत्याधुनिक पर्यवेक्षित मॉडलों से बहुत बेहतर प्रदर्शन करता है, जो लंबे वीडियो के लिए शून्य-शॉट QA की क्षमता को उजागर करता है।

1 परिचय

हाल के वीडियो QA मॉडल डेटा और एनोटेशन की सीमाओं के कारण लंबे वीडियो कथात्मक QA कार्यों [2, 13, 27] (यानी, फिल्में, नाटक और YouTube वेब वीडियो) को संभालने में चुनौतियों का सामना करते हैं। इसके परिणामस्वरूप छोटे वीडियो क्लिप [16, 17, 30] पर मुख्य रूप से दृश्य प्रश्नों के उत्तर देने से परे लंबे वीडियो कथाओं को समझने में असमर्थता होती है। ऐसे लंबे वीडियो QAs का आकार मॉडल को वीडियो के भीतर जटिल कथात्मक संरचनाओं को पूरी तरह से समझने के लिए प्रशिक्षित करने के लिए अपर्याप्त है, जिससे उप-इष्टतम प्रदर्शन प्राप्त होता है। [10] प्रदर्शित करता है कि पर्यवेक्षित मॉडल कथात्मक संदर्भ की तुलना में प्रश्न में भाषा के पूर्वाग्रहों पर अधिक निर्भर करते हैं: वे बिना कोई वीडियो संदर्भ देखे भी समान प्रदर्शन प्राप्त कर सकते हैं।


कम सामान्यीकरण के कारण होने वाली चुनौती का समाधान करने के लिए, प्रीट्रेन्ड लार्ज लैंग्वेज मॉडल (एलएलएम) का उपयोग करके शून्य-शॉट दृष्टिकोण जटिल क्यूए कार्यों से निपटने के लिए एक कुशल विकल्प हो सकता है [32], और पाठ संदर्भ सारांश [8, 37]। फिर भी, क्या ऐसे एलएलएम की कथात्मक क्यूए क्षमता वीडियो डोमेन में स्थानांतरित की जा सकती है?



चित्र 1: लॉन्ग स्टोरी शॉर्ट (LSS) वीडियो से (a) स्क्रीनप्ले और सारांशित (b) प्लॉट बनाने के लिए लार्ज लैंग्वेज मॉडल (LLM) (यानी, GPT-3) का उपयोग करता है। डेटा प्रोसेसिंग के बारे में अधिक जानकारी अनुभाग 2 में पाई जा सकती है। जब LSS वीडियो के बारे में सवालों के जवाब देता है, तो मॉडल (c) दिए गए कच्चे वीडियो फुटेज को विज़ुअल लैंग्वेज मॉडल, CLIP के साथ मान्य करता है, और (d) पीछे की ओर तरीके से आगे की ग्राउंडेड स्क्रिप्ट खोजता है, जिसे हम अनुभाग 2.3 में CLIPCheck कहते हैं।



हम लॉन्ग स्टोरी शॉर्ट (LSS) का प्रस्ताव करते हैं, जैसा कि चित्र 1 में दर्शाया गया है, जो वीडियो क्लिप को सुकराती मॉडल [35] से प्रेरित होकर टेक्स्ट स्क्रीनप्ले प्रारूप में अनुवादित करता है। GPT-3 [1] का उपयोग करते हुए, हम पहले लंबे वीडियो को प्लॉट की सूची में सारांशित करते हैं और फिर दिए गए प्रश्न को हल करने के लिए उत्पन्न सारांश और कच्चे वीडियो संदर्भ दोनों को नेविगेट करते हैं। हमारा जीरो-शॉट तरीका मूवीक्यूए और ड्रामाक्यूए डेटासेट में अत्याधुनिक पर्यवेक्षित तरीकों की तुलना में बेहतर परिणाम दिखाता है। इसके अलावा, हम क्लिपचेक का प्रस्ताव करते हैं, जो GPT-3 द्वारा प्रदान किए गए तर्क परिणामों के दृश्य संरेखण को बढ़ाने के लिए एक दृश्य-पाठ मिलान विधि है। संक्षेप में, हमारे मुख्य योगदान तीन गुना हैं:


  1. हम एलएसएस प्रस्तुत करते हैं, जो एक ढांचा है जो एक लंबे वीडियो वर्णन को कथानकों की सूची में सारांशित करता है और प्रश्न से संबंधित उपकथानक को पुनः प्राप्त करता है।


  2. हम दृश्य संकेत में CLIP आधारित मिलान के माध्यम से दृश्य संरेखण शक्ति पर विचार करने के महत्व को प्रदर्शित करते हैं।


  3. हमारा शून्य-शॉट दृष्टिकोण मूवीक्यूए [27] और ड्रामाक्यूए [2] में अत्याधुनिक प्रदर्शन प्राप्त करता है, जो पर्यवेक्षित बेसलाइन से बेहतर प्रदर्शन करता है।


바카라사이트 바카라사이트 온라인바카라