Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( ) ; (2) Youngjae Yu, MIR Lab Yonsei University ( ).Résumé du film Les films sont des exemples typiques de longues vidéos avec des structures narratives claires. Gorinski et coll. [7] générer la version plus courte d'un scénario pour trouver une chaîne graphique optimale d'une scène de film. TRIPOD [23] est un ensemble de données de scénario contenant des annotations de tournants. Dans le même ouvrage, un modèle automatique pour identifier le tournant des récits cinématographiques est proposé. Papalampidi et coll. [24] utilise plus tard la série télévisée CSI pour démontrer l'utilité des tournants dans le résumé automatique de films. Lee et coll. [15] améliore encore l'identification des points tournants avec des fonctionnalités de dialogue et une architecture de transformateur.
Assurance qualité vidéo longue La tâche de réponse aux questions vidéo a été largement étudiée dans la littérature sous la forme à la fois d'assurance qualité ouverte [9] et de problèmes à choix multiples [28, 29]. Plusieurs approches ont été proposées pour résoudre cette tâche, à partir des réseaux d'attention basés sur RNN [9, 30, 36, 38], jusqu'aux réseaux de mémoire [12, 22, 27] et aux transformateurs [4, 6]. Récemment, des modèles multimodaux pré-entraînés sur des ensembles de données vidéo à grande échelle (VideoQA [31], VIOLET [5], MERLOT [33] et MERLOT-Reserve [34]) montrent également des performances prometteuses en matière de réponse aux questions vidéo.