Jan 01, 1970
该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)延世大学 MIR 实验室 Jiwan Chung( );
(2)Youngjae Yu,延世大学 MIR 实验室( )。
电影摘要电影是具有清晰叙事结构的长视频的典型例子。Gorinski 等人 [7] 生成较短版本的剧本作为寻找电影场景的最佳图链的任务。TRIPOD [23] 是一个包含转折点注释的剧本数据集。在同一工作中,提出了一种从电影叙事中识别转折点的自动模型。Papalampidi 等人 [24] 后来使用电视剧 CSI 来展示转折点在自动电影摘要中的实用性。Lee 等人 [15] 通过对话特征和 Transformer 架构进一步改进了转折点识别。
长视频问答文献中对视频问答任务进行了广泛的研究,研究形式包括开放式问答 [9] 和多项选择题 [28, 29]。已经提出了几种方法来解决此任务,从基于 RNN 的注意力网络 [9, 30, 36, 38],到记忆网络 [12, 22, 27] 和 Transformer [4, 6]。最近,在大规模视频数据集上预训练的多模态模型(VideoQA [31]、VIOLET [5]、MERLOT [33] 和 MERLOT-Reserve [34])在视频问答中也表现出色。
然而,尽管长视频问答非常重要,但受到的关注却相对较少。MovieQA [27] 针对整部电影制定问答,通常时长为两个小时。DramaQA [3] 使用单个电视剧作为视觉背景,并要求解答器理解长度为 1 到 20 分钟的视频片段。