长视频问答的“先总结后搜索”方法：相关工作

经过 Kinetograph: The Video Editing Technology Publication2m2024/05/26

太長; 讀書

在本文中，研究人员使用 GPT-3 探索零样本视频 QA，其表现优于监督模型，利用叙述摘要和视觉匹配。

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者：

（1）延世大学 MIR 实验室 Jiwan Chung（）；

（2）Youngjae Yu，延世大学 MIR 实验室（）。

链接表

4.相关工作

电影摘要电影是具有清晰叙事结构的长视频的典型例子。Gorinski 等人 [7] 生成较短版本的剧本作为寻找电影场景的最佳图链的任务。TRIPOD [23] 是一个包含转折点注释的剧本数据集。在同一工作中，提出了一种从电影叙事中识别转折点的自动模型。Papalampidi 等人 [24] 后来使用电视剧 CSI 来展示转折点在自动电影摘要中的实用性。Lee 等人 [15] 通过对话特征和 Transformer 架构进一步改进了转折点识别。

长视频问答文献中对视频问答任务进行了广泛的研究，研究形式包括开放式问答 [9] 和多项选择题 [28, 29]。已经提出了几种方法来解决此任务，从基于 RNN 的注意力网络 [9, 30, 36, 38]，到记忆网络 [12, 22, 27] 和 Transformer [4, 6]。最近，在大规模视频数据集上预训练的多模态模型（VideoQA [31]、VIOLET [5]、MERLOT [33] 和 MERLOT-Reserve [34]）在视频问答中也表现出色。

然而，尽管长视频问答非常重要，但受到的关注却相对较少。MovieQA [27] 针对整部电影制定问答，通常时长为两个小时。DramaQA [3] 使用单个电视剧作为视觉背景，并要求解答器理解长度为 1 到 20 分钟的视频片段。

L O A D I N G
. . . comments & more!