Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( ); (2) Youngjae Yu, MIR Lab Universidad Yonsei ( ).Resumen de películas Las películas son ejemplos típicos de vídeos largos con estructuras narrativas claras. Gorinski et al. [7]generan la versión más corta de un guión como la tarea de encontrar una cadena gráfica óptima de una escena de película. TRIPOD [23] es un conjunto de datos de guiones que contiene anotaciones sobre puntos de inflexión. En el mismo trabajo se propone un modelo automático para identificar el punto de inflexión a partir de narrativas cinematográficas. Papalampidi et al. [24] posteriormente utiliza la serie de televisión CSI para demostrar la utilidad de los puntos de inflexión en el resumen automático de películas. Lee y cols. [15] mejora aún más la identificación del punto de inflexión con funciones de diálogo y arquitectura del transformador.
Control de calidad en video largo La tarea de responder preguntas en video se ha estudiado ampliamente en la literatura en forma de control de calidad abierto [9] y problemas de opción múltiple [28, 29]. Se han propuesto varios enfoques para abordar esta tarea, desde redes de atención basadas en RNN [9, 30, 36, 38] hasta redes de memoria [12, 22, 27] y transformadores [4, 6]. Recientemente, los modelos multimodales previamente entrenados en conjuntos de datos de video a gran escala (VideoQA [31], VIOLET [5] y MERLOT [33] y MERLOT-Reserve [34]) también muestran un rendimiento prometedor en la respuesta a preguntas en video.