Jan 01, 1970
著者:
(1) Jiwan Chung、延世大学专业MIRラボ( ); (2)Youngjae Yu、延世大专MIRラボ( )。映画の要約映画は、明確な物語構造を持つ長いビデオの典型的な例です。Gorinskiら[7]は、映画のシーンの最適なグラフチェーンを見つけるタスクとして、脚本の短縮版を生成しました。TRIPOD[23]は、ターニングポイントの注釈を含む脚本データセットです。同じ研究で、映画の物語からターニングポイントを識別する自動モデルが提案されています。Papalampidiら[24]は、後にテレビシリーズCSIを使用して、自動映画要約におけるターニングポイントの有用性を実証しました。Leeら[15]は、ダイアログ機能とトランスフォーマーアーキテクチャを使用して、ターニングポイントの識別をさらに改善しました。
長時間ビデオQAビデオ質問応答のタスクは、オープンエンドQA [9]と複数選択問題[28, 29]の両方の形で文献で広く研究されてきました。このタスクに対処するために、RNNベースの注意ネットワーク[9, 30, 36, 38]からメモリネットワーク[12, 22, 27]、トランスフォーマー[4, 6]まで、いくつかのアプローチが提案されています。最近では、大規模なビデオデータセットで事前トレーニングされたマルチモーダルモデル(VideoQA [31]、VIOLET [5]、およびMERLOT [33]とMERLOT-Reserve [34])が、ビデオ質問応答でも有望なパフォーマンスを示しています。