Autoren:
(1) Jiwan Chung, MIR Lab Yonsei University ( ); (2) Youngjae Yu, MIR Lab Yonsei University ( ).Filmzusammenfassung Filme sind typische Beispiele für lange Videos mit klaren Erzählstrukturen. Gorinski et al. [7] erstellen die kürzere Version eines Drehbuchs als Aufgabe, eine optimale Graphenkette einer Filmszene zu finden. TRIPOD [23] ist ein Drehbuch-Datensatz, der Wendepunktanmerkungen enthält. In derselben Arbeit wird ein automatisches Modell zur Erkennung des Wendepunkts aus Filmerzählungen vorgeschlagen. Papalampidi et al. [24] verwenden später die Fernsehserie CSI, um die Nützlichkeit von Wendepunkten bei der automatischen Filmzusammenfassung zu demonstrieren. Lee et al. [15] verbessern die Wendepunkterkennung weiter mit Dialogfunktionen und Transformer-Architektur.
Lange Video-QA Die Aufgabe der Beantwortung von Videofragen wurde in der Literatur ausführlich in Form von offenen QA-Aufgaben [9] und Multiple-Choice-Problemen [28, 29] untersucht. Zur Lösung dieser Aufgabe wurden verschiedene Ansätze vorgeschlagen, angefangen von RNN-basierten Aufmerksamkeitsnetzwerken [9, 30, 36, 38] über Gedächtnisnetzwerke [12, 22, 27] bis hin zu Transformatoren [4, 6]. In jüngster Zeit zeigen multimodale Modelle, die anhand großer Videodatensätze vorab trainiert wurden (VideoQA [31], VIOLET [5] und MERLOT [33] und MERLOT-Reserve [34]), auch bei der Beantwortung von Videofragen vielversprechende Ergebnisse.