Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexes

par Kinetograph: The Video Editing Technology Publication2m2024/05/26

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.

featured image - Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : travaux connexes

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( ) ; (2) Youngjae Yu, MIR Lab Yonsei University ( ).

Tableau des liens

4. Travaux connexes

Résumé du film Les films sont des exemples typiques de longues vidéos avec des structures narratives claires. Gorinski et coll. [7] générer la version plus courte d'un scénario pour trouver une chaîne graphique optimale d'une scène de film. TRIPOD [23] est un ensemble de données de scénario contenant des annotations de tournants. Dans le même ouvrage, un modèle automatique pour identifier le tournant des récits cinématographiques est proposé. Papalampidi et coll. [24] utilise plus tard la série télévisée CSI pour démontrer l'utilité des tournants dans le résumé automatique de films. Lee et coll. [15] améliore encore l'identification des points tournants avec des fonctionnalités de dialogue et une architecture de transformateur.

Assurance qualité vidéo longue La tâche de réponse aux questions vidéo a été largement étudiée dans la littérature sous la forme à la fois d'assurance qualité ouverte [9] et de problèmes à choix multiples [28, 29]. Plusieurs approches ont été proposées pour résoudre cette tâche, à partir des réseaux d'attention basés sur RNN [9, 30, 36, 38], jusqu'aux réseaux de mémoire [12, 22, 27] et aux transformateurs [4, 6]. Récemment, des modèles multimodaux pré-entraînés sur des ensembles de données vidéo à grande échelle (VideoQA [31], VIOLET [5], MERLOT [33] et MERLOT-Reserve [34]) montrent également des performances prometteuses en matière de réponse aux questions vidéo.

Cependant, le contrôle qualité des vidéos longues a reçu relativement moins d’attention malgré son importance. MovieQA [27] formule des QA sur l'ensemble des films, qui s'étendent généralement sur deux longues heures. DramaQA [3] utilise une seule série télévisée comme contexte visuel et charge un solveur de comprendre des clips vidéo d'une durée d'une à vingt minutes.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

ÉTIQUETTES

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

CET ARTICLE A ÉTÉ PARU DANS...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas