इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( ); (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( )।
GPT-3 जैसे बड़े भाषा मॉडल ने कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता के बिना नए कार्यों के अनुकूल होने की एक प्रभावशाली क्षमता का प्रदर्शन किया है। यह क्षमता विशेष रूप से कथात्मक प्रश्न उत्तर जैसी सेटिंग्स में प्रभावी रही है, जहाँ कार्यों की विविधता बहुत अधिक है, लेकिन उपलब्ध पर्यवेक्षण डेटा छोटा है। इस कार्य में, हम जांच करते हैं कि क्या ऐसे भाषा मॉडल अपनी शून्य-शॉट तर्क क्षमताओं को नाटक, फ़िल्मों और एनीमेशन जैसी मल्टीमीडिया सामग्री में लंबी मल्टीमॉडल कथाओं तक बढ़ा सकते हैं, जहाँ कहानी एक आवश्यक भूमिका निभाती है। हम लॉन्ग स्टोरी शॉर्ट का प्रस्ताव करते हैं, जो कथात्मक वीडियो QA के लिए एक रूपरेखा है जो पहले वीडियो की कथा को एक छोटे कथानक में सारांशित करती है और फिर प्रश्न से संबंधित वीडियो के कुछ हिस्सों को खोजती है। हम CLIPCheck के साथ दृश्य मिलान को बढ़ाने का भी प्रस्ताव करते हैं। हमारा मॉडल अत्याधुनिक पर्यवेक्षित मॉडलों से बहुत बेहतर प्रदर्शन करता है, जो लंबे वीडियो के लिए शून्य-शॉट QA की क्षमता को उजागर करता है।
1 परिचय
हाल के वीडियो QA मॉडल डेटा और एनोटेशन की सीमाओं के कारण लंबे वीडियो कथात्मक QA कार्यों [2, 13, 27] (यानी, फिल्में, नाटक और YouTube वेब वीडियो) को संभालने में चुनौतियों का सामना करते हैं। इसके परिणामस्वरूप छोटे वीडियो क्लिप [16, 17, 30] पर मुख्य रूप से दृश्य प्रश्नों के उत्तर देने से परे लंबे वीडियो कथाओं को समझने में असमर्थता होती है। ऐसे लंबे वीडियो QAs का आकार मॉडल को वीडियो के भीतर जटिल कथात्मक संरचनाओं को पूरी तरह से समझने के लिए प्रशिक्षित करने के लिए अपर्याप्त है, जिससे उप-इष्टतम प्रदर्शन प्राप्त होता है। [10] प्रदर्शित करता है कि पर्यवेक्षित मॉडल कथात्मक संदर्भ की तुलना में प्रश्न में भाषा के पूर्वाग्रहों पर अधिक निर्भर करते हैं: वे बिना कोई वीडियो संदर्भ देखे भी समान प्रदर्शन प्राप्त कर सकते हैं।
कम सामान्यीकरण के कारण होने वाली चुनौती का समाधान करने के लिए, प्रीट्रेन्ड लार्ज लैंग्वेज मॉडल (एलएलएम) का उपयोग करके शून्य-शॉट दृष्टिकोण जटिल क्यूए कार्यों से निपटने के लिए एक कुशल विकल्प हो सकता है [32], और पाठ संदर्भ सारांश [8, 37]। फिर भी, क्या ऐसे एलएलएम की कथात्मक क्यूए क्षमता वीडियो डोमेन में स्थानांतरित की जा सकती है?
हम लॉन्ग स्टोरी शॉर्ट (LSS) का प्रस्ताव करते हैं, जैसा कि चित्र 1 में दर्शाया गया है, जो वीडियो क्लिप को सुकराती मॉडल [35] से प्रेरित होकर टेक्स्ट स्क्रीनप्ले प्रारूप में अनुवादित करता है। GPT-3 [1] का उपयोग करते हुए, हम पहले लंबे वीडियो को प्लॉट की सूची में सारांशित करते हैं और फिर दिए गए प्रश्न को हल करने के लिए उत्पन्न सारांश और कच्चे वीडियो संदर्भ दोनों को नेविगेट करते हैं। हमारा जीरो-शॉट तरीका मूवीक्यूए और ड्रामाक्यूए डेटासेट में अत्याधुनिक पर्यवेक्षित तरीकों की तुलना में बेहतर परिणाम दिखाता है। इसके अलावा, हम क्लिपचेक का प्रस्ताव करते हैं, जो GPT-3 द्वारा प्रदान किए गए तर्क परिणामों के दृश्य संरेखण को बढ़ाने के लिए एक दृश्य-पाठ मिलान विधि है। संक्षेप में, हमारे मुख्य योगदान तीन गुना हैं:
हम एलएसएस प्रस्तुत करते हैं, जो एक ढांचा है जो एक लंबे वीडियो वर्णन को कथानकों की सूची में सारांशित करता है और प्रश्न से संबंधित उपकथानक को पुनः प्राप्त करता है।
हम दृश्य संकेत में CLIP आधारित मिलान के माध्यम से दृश्य संरेखण शक्ति पर विचार करने के महत्व को प्रदर्शित करते हैं।
हमारा शून्य-शॉट दृष्टिकोण मूवीक्यूए [27] और ड्रामाक्यूए [2] में अत्याधुनिक प्रदर्शन प्राप्त करता है, जो पर्यवेक्षित बेसलाइन से बेहतर प्रदर्शन करता है।
L O A D I N G . . . comments & more!
About Author
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.