Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( ); (2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( ).Краткое описание фильма Фильмы являются типичными примерами длинных видеороликов с четкой повествовательной структурой. Горинский и др. [7] сгенерировали более короткую версию сценария как задачу поиска оптимальной цепочки графов сцены фильма. TRIPOD [23] — это набор данных сценария, содержащий аннотации поворотных моментов. В этой же работе предлагается автоматическая модель определения переломного момента по кинонарративам. Папалампиди и др. [24] позже использует телесериал «CSI», чтобы продемонстрировать полезность поворотных моментов в автоматическом обобщении фильмов. Ли и др. [15] еще больше улучшает идентификацию поворотных моментов с помощью функций диалога и архитектуры преобразователя.
QA длинного видео. Задача ответа на видеовопросы широко изучалась в литературе как в форме открытого QA [9], так и задач с множественным выбором [28, 29]. Для решения этой задачи было предложено несколько подходов, начиная от сетей внимания на основе RNN [9, 30, 36, 38] и заканчивая сетями памяти [12, 22, 27] и преобразователями [4, 6]. Недавно мультимодальные модели, предварительно обученные на крупномасштабных наборах видеоданных (VideoQA [31], VIOLET [5], MERLOT [33] и MERLOT-Reserve [34]), также демонстрируют многообещающую эффективность при ответах на видеовопросы.