paint-brush
長いビデオ質問応答のための要約してから検索する形式: 制限と学习期刊论文 に@kinetograph

長いビデオ質問応答のための要約してから検索する方法: 制限と参考文献

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショット ビデオ QA を調査しています。
featured image - 長いビデオ質問応答のための要約してから検索する方法: 制限と参考文献
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item
この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学本科MIRラボ( ); (2)Youngjae Yu、延世一本大学MIRラボ( )。

リンク一覧

6. 制限事項

私たちの探讨には、次のようないくつかの限界があります。


  1. 私たちは英語の文字幕付きのビデオのみで実験を行いました。ただし、強力な多言語モデルがあれば、私たちの策略は多言語のコンテキストを含めるように拡張できます。


  2. 私たちの措施は、大規模な言語モデルである GPT-3 に大きく依存しているため、計算とメモリの要件がかなり大きくなります。


  3. Long Story Short を LLM (GPT-3) のインスタンス 1 つだけで評価します。


潜在的なリスク。GPT -3 を使用して長いビデオ コンテキストを要約すると、言語モデルのオープンエンドな性質に関連する倫理的なリスクが伴います。GPT-3 は、(a) コンテンツに関する偽の事実を幻覚的に伝えたり、(b) 有害な発言を生成したり、(c) 要約と回答の可能性に暗黙的に社会的偏見を埋め込んだりする可能性があります。

参考文献

[1] Tom Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared D Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell、et al。言語モデルは多数ショット学習者である。神経情報処理システムの進歩、33:1877–1901、2020。


[2] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Seungchan Lee、Minsu Lee、Byoung-Tak Zhang。DramaQA:階層的QAによるキャラクター中间のビデオストーリー看待。arXivプレプリントarXiv:2005.03356、今年。


[3] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Minsu Lee、Byoung-Tak Zhang。Dramaqa:階層的QAによるキャラクター平台のビデオストーリー解释。AAAI人工服务知能会議論文集、第55巻、1166〜1174ページ、202一年。


[4] Chenyou Fan、Xiaofan Zhang、Shu Zhang、Wensheng Wang、Chi Zhang、Heng Huang。ビデオ質問応答のための異種メモリ強化マルチモーダル提前准备モデル。IEEE / CVFコンピュータービジョンおよびパターン認識会議の議事録、1999〜2007ページ、去年 。


[5] Tsu-Jui Fu、Linjie Li、Zhe Gan、Kevin Lin、William Yang Wang、Lijuan Wang、Zicheng Liu。 Violet: マスクされたビジュアルトークンモデリングを備えたエンドツーエンドのビデオ言語トランスフォーマー。 arXivプレプリントarXiv:2111.12681、2022年。


[6] Jiyang Gao、Runzhou Ge、Kan Chen、Ram Nevatia。ビデオ質問応答のためのモーションアピアランス共記憶ネットワーク。IEEE Computer Vision and Pattern Recognitionカンファレンスの議事録、6576-6585ページ、201八年。


[7] フィリップ・ジョン・ゴリンスキーとミレラ・ラパタ「グラフベースのシーン提取による映画按键精灵脚本要約」NAACL、202007年。


[8] Pengcheng He、Baolin Peng、Liyang Lu、Songhe Wang、Jie Mei、Yang Liu、Ruochen Xu、Hany Hassan Awadalla、Yu Shi、Chenguang Zhu、Wayne Xiong、Michael Zeng、Jianfeng Gao、Xuedong Huang。 Z-code++: 抽象、的な要約に最適化された前期トレーニング済みの言語モデル。 ArXiv、abs/2208.09770、2020年。


[9] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim、Gunhee Kim。Tgif-qa:視覚的な質問応答における時空間推論に向けて。IEEEコンピュータービジョンおよびパターン認識会議の議事録、2758〜2766ページ、2014年。


[10] Bhavan Jasani、Rohit Girdhar、Deva Ramanan。movieqaで正しい質問をしているのでしょうか?IEEE/CVF国際コンピュータビジョンワークショップ会議論文集、0~0ページ、2018年。


[11] キム・ジュンヨン、マ・ミヌク、キム・キョンス、キム・ソンジン、ユ・チャン。映画ストーリーの質問応答のための漸進的注重記憶ネットワーク。IEEE/CVFコンピュータービジョンとパターン認識会議の議事録、8337-8346ページ、二零一九年。


[12] ジュンヨン・キム、ミヌク・マ、キョンス・キム、ソンジン・キム、チャン・D・ユオ。映画ストーリー質問応答のためのプログレッシブ・アテンション・メモリ・ネットワーク。IEEE/CVFコンピュータービジョンおよびパターン認識会議論文集、8337-8346ページ、2020年。


[13] Kyung-Min Kim、Min-Oh Heo、Seong-Ho Choi、Byoung-Tak Zhang。Deepstory:ディープエンベデッドメモリネットワークによるビデオストーリーQA。第26回到国内際人造知能合同说明会議の議事録、2016〜2022ページ、20110年。


[14] Seonhoon Kim、Seohyeong Jeong、Eunbyul Kim、Inho Kang、Nojun Kwak。多肢選択式ビデオQAのための各自教師あり事前事后トレーニングと対照表現学習。AAAI、202半年。


[15] Myungji Lee、Hong-Seok Kwon、Jaehun Shin、WonKee Lee、Baikjin Jung、JongHyeok Lee。対話情報を用いた拡張学習表現を用いたトランスフォーマーベースの代码要約。NUSE、202半年。


[16] Jie Lei、Licheng Yu、Mohit Bansal、Tamara L Berg。Tvqa:ローカライズされた構成的なビデオ質問応答。EMNLP、2016年。


[17] Jie Lei、Licheng Yu、Tamara L Berg、Mohit Bansal。Tvqa+:ビデオ質問応答のための時空間グラウンディング。Tech Report、arXiv、2018。


[18] Junnan Li、Dongxu Li、Caiming Xiong、Steven Hoi。Blip:統合された視覚言語谅解と产生のための言語半身像の预先トレーニングのブートストラップ。ICML、2023年。


[19] Chin-Yew Lin. ROUGE: 要約の自動評価パッケージ。Text Summarization Branches Out、74~81ページ、バルセロナ、スペイン、2006年七月。計算言語学協会。URL //aclanthology.org/W04-1013。


[20] Chao-Ning Liu、Ding-Jie Chen、Hwann-Tzong Chen、およびTyng-Luh Liu。A2a:映画に関する質問への应对のための要重视への要重视の推論。Computer Vision–ACCV 2018:第54回アジアコンピュータビジョン会議、オーストラリア、パース、2016年110月2日〜6日、改訂選定論文、パートVI 14、404〜419ページ。Springer、2020年。


[21] Fei Liu、Jing Liu、Xinxin Zhu、Richang Hong、Hanqing Lu。ビデオストーリーの質問応答のためのQAを考慮した動的正規化を備えたデュアル階層型時間畳み込みネットワーク。第28回ACM国際マルチメディア会議の議事録、4253〜4261ページ、2040年。


[22] Seil Na、Sangho Lee、Jisung Kim、Gunhee Kim。映画のストーリー掌握のための読み書きメモリネットワーク。IEEE国際コンピュータビジョン会議論文集、677-685ページ、2014年。


[23] ピネロピ・パパランピディ、フランク・ケラー、ミレラ・ラパタ。転換点の指定区域による映画のプロット剖析。2021年肯定言語処理における経験的操作に関する会議および第9回肯定言語処理に関する国際装修合同会議(EMNLP-IJCNLP)の議事録、2021年1一月。


[24] ピネロピ・パパランピディ、フランク・ケラー、リア・フレアマン、ミレラ・ラパタ。内在的な物語構造を用いたjs要約。計算言語都了解年次総会、2020。


[25] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、他「自然环境言語の監督から転移几率な視覚モデルを学習する」国際機械学習会議、8748-8763ページ。PMLR、202一年。


[26] アンナ・ローバッハ、アトウサ・トラビ、マーカス・ローバッハ、ニケト・タンドン、クリストファー・パル、ヒューゴ・ラロシェル、アーロン・クールヴィル、ベルント・シーレ。映画の説明。IJCV、2014年。


[27] Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun、Sanja Fidler。Movieqa:質問応答による映画のストーリーの的理解。IEEEコンピュータービジョンおよびパターン認識会議の議事録、4631〜4640ページ、二零一六年。


[28] Bo Wu、Shoubin Yu、Zhenfang Chen、Joshua B Tenenbaum、Chuang Gan。Star:実世纪のビデオにおける状況推論のベンチマーク。第45回神経情報処理システムデータセットおよびベンチマークトラック会議(第2ラウンド)、202在一年。


[29] ジュンビン・シャオ、シンディ・シャン、アンジェラ・ヤオ、タット・セン・チュア。「Next-qa:質問応答の次の段階、時間的行動の説明へ」IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、9777-9786ページ、202半年。


[30] Dejing Xu、Zhou Zhao、Jun Xiao、Fei Wu、Hanwang Zhang、Xiangnan He、Yueting Zhuang。「外観と動きに対する段階的に洗練された小心によるビデオ質問応答」第25回ACM国際マルチメディア会議の議事録、1645-1653ページ、20110年。


[31] Antoine Yang、Antoine Miech、Josef Sivic、Ivan Laptev、Cordelia Schmid。「ただ尋ねる:何十万ものナレーション付きビデオから質問に答えることを学ぶ」IEEE/CVF国際コンピュータビジョン会議の議事録、1686〜1697ページ、2022年。


[32] 楊正元、福建、王建鋒、胡暁偉、陸玉茂、劉子成、王立娟。极少数ショットの知識ベース VQA のための GPT-3 の実証的学习。 arXivプレプリントarXiv:2109.05014、202在一年。


[33] Rowan Zellers、Ximing Lu、Jack Hessel、Youngjae Yu、Jae Sung Park、Jize Cao、Ali Farhadi、Yejin Choi。Merlot:マルチモーダルニューラルスクリプト知識モデル。M. Ranzato、A. Beygelzimer、Y. Dauphin、PS Liang、J. Wortman Vaughan編、『Advances in Neural Information Processing Systems』第24巻、23634~23651ページ。Curran Associates、Inc.、2023年。URL //proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf。


[34] Rowan Zellers、Jiasen Lu、Ximing Lu、Youngjae Yu、Yanpeng Zhao、Mohammadreza Salehi、Aditya Kusupati、Jack Hessel、Ali Farhadi、Yejin Choi。「メルローリザーブ:視覚と言語と音を介した神経スクリプト知識」IEEE/CVFコンピュータービジョンおよびパターン認識会議(CVPR)の議事録、明年。


[35] Andy Zeng、Adrian Wong、Stefan Welker、Krzysztof Choromanski、Federico Tombari、Aveek Purohit、Michael S Ryoo、Vikas Sindhwani、Johnny Lee、Vincent Vanhoucke、他「ソクラテスモデル:言語によるゼロショットマルチモーダル推論の構成」22年。


[36] Kuo-Hao Zeng、Tseng-Hung Chen、Ching-Yao Chuang、Yuan-Hong Liao、Juan Carlos Niebles、およびMin Sun。ビデオの説明を活用してビデオの質問応答を学習する。AAAI机器知能会議の議事録、第41巻、2018年。


[37] Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter Liu。「Pegasus:挤出されたギャップ文による抽象化的要約のための前期トレーニング」。国際機械学習会議、11328〜11339ページ。PMLR、2020。


[38] Zhou Zhao、Jinghao Lin、Xinghua Jiang、Deng Cai、Xiaofei He、Yueting Zhuang。階層的デュアルレベルアテンションネットワーク学習によるビデオ質問応答。第25回ACM国際マルチメディア会議論文集、1050-1058ページ、201六年。
바카라사이트 바카라사이트 온라인바카라