paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य द्वारा@kinetograph

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( ); (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( )।

लिंक की तालिका

4. संबंधित कार्य

मूवी सारांश मूवी स्पष्ट कथात्मक संरचनाओं के साथ लंबे वीडियो के विशिष्ट उदाहरण हैं। गोरिंस्की एट अल। [7] मूवी सीन की इष्टतम ग्राफ चेन खोजने के कार्य के रूप में एक पटकथा का छोटा संस्करण तैयार करते हैं। ट्राइपॉड [23] एक पटकथा डेटासेट है जिसमें टर्निंग पॉइंट एनोटेशन होते हैं। उसी काम में, मूवी कथाओं से टर्निंग पॉइंट की पहचान करने के लिए एक स्वचालित मॉडल प्रस्तावित किया गया है। पापालैम्पिडी एट अल। [24] बाद में टीवी सीरीज़ सीएसआई का उपयोग करके स्वचालित मूवी सारांश में टर्निंग पॉइंट की उपयोगिता को प्रदर्शित करते हैं। ली एट अल। [15] डायलॉग फीचर्स और ट्रांसफॉर्मर आर्किटेक्चर के साथ टर्निंग पॉइंट पहचान को और बेहतर बनाता है।


लॉन्ग वीडियो क्यूए वीडियो प्रश्न उत्तर देने के कार्य का साहित्य में ओपन-एंडेड क्यूए [9] और मल्टी-चॉइस प्रॉब्लम्स [28, 29] दोनों के रूप में बड़े पैमाने पर अध्ययन किया गया है। इस कार्य को संबोधित करने के लिए कई दृष्टिकोण प्रस्तावित किए गए हैं, आरएनएन-आधारित ध्यान नेटवर्क [9, 30, 36, 38] से लेकर मेमोरी नेटवर्क [12, 22, 27] और ट्रांसफॉर्मर [4, 6] तक। हाल ही में, बड़े पैमाने के वीडियो डेटासेट (वीडियोक्यूए [31], वायलेट [5], और मेरलोट [33] और मेरलोट-रिजर्व [34]) पर प्री-ट्रेन्ड मल्टीमॉडल मॉडल वीडियो प्रश्न उत्तर देने में भी आशाजनक प्रदर्शन दिखाते हैं।


हालाँकि, लंबे वीडियो QA को इसके महत्व के बावजूद अपेक्षाकृत कम ध्यान मिला है। MovieQA [27] पूरी मूवी पर QAs तैयार करता है, जो आम तौर पर दो लंबे घंटों तक चलता है। DramaQA [3] एक एकल टीवी सीरीज़ को विज़ुअल संदर्भ के रूप में उपयोग करता है, और एक सॉल्वर को एक से बीस मिनट की लंबाई वाली वीडियो क्लिप को समझने का काम देता है।
바카라사이트 바카라사이트 온라인바카라