長いビデオの質問応答のための要約してから検索する方法: 関連研究

に Kinetograph: The Video Editing Technology Publication2m2024/05/26

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショットビデオ QA を調査しています。

featured image - 長いビデオの質問応答のための要約してから検索する方法: 関連研究

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学专业MIRラボ（）; （２）Youngjae Yu、延世大专MIRラボ（）。

リンク一覧

4. 関連研究

映画の要約映画は、明確な物語構造を持つ長いビデオの典型的な例です。Gorinskiら[7]は、映画のシーンの最適なグラフチェーンを見つけるタスクとして、脚本の短縮版を生成しました。TRIPOD[23]は、ターニングポイントの注釈を含む脚本データセットです。同じ研究で、映画の物語からターニングポイントを識別する自動モデルが提案されています。Papalampidiら[24]は、後にテレビシリーズCSIを使用して、自動映画要約におけるターニングポイントの有用性を実証しました。Leeら[15]は、ダイアログ機能とトランスフォーマーアーキテクチャを使用して、ターニングポイントの識別をさらに改善しました。

長時間ビデオQAビデオ質問応答のタスクは、オープンエンドQA [9]と複数選択問題[28, 29]の両方の形で文献で広く研究されてきました。このタスクに対処するために、RNNベースの注意ネットワーク[9, 30, 36, 38]からメモリネットワーク[12, 22, 27]、トランスフォーマー[4, 6]まで、いくつかのアプローチが提案されています。最近では、大規模なビデオデータセットで事前トレーニングされたマルチモーダルモデル（VideoQA [31]、VIOLET [5]、およびMERLOT [33]とMERLOT-Reserve [34]）が、ビデオ質問応答でも有望なパフォーマンスを示しています。

しかし、長時間ビデオのQAは、その核心性にもかかわらず、比較的注目されていません。MovieQA [27]は、通常情况下2時間にわたる映画与会人员に対してQAを做成します。DramaQA [3]は、単一のテレビシリーズを視覚的なコンテキストとして运行し、5分から20分の長さのビデオクリップを解读するようにソルバーに依頼します。

L O A D I N G
. . . comments & more!