Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( ); (2) Youngjae Yu, MIR Lab Yonsei University ( ).
Tabela de links
6. Limitações
Nosso estudo tem algumas limitações, incluindo:
- Experimentamos apenas vídeos com legendas em inglês. No entanto, o nosso método pode ser alargado para incluir contextos multilingues, dado um forte modelo linguístico multilingue.
- Os requisitos de computação e memória do nosso método são substanciais devido à sua forte dependência do modelo de linguagem grande, GPT-3.
- Avaliamos Long Story Short com apenas uma única instância de LLM (GPT-3).
Risco potencial. Resumir o contexto de vídeo longo com GPT-3 acarreta riscos éticos relacionados à natureza aberta do modelo de linguagem. O GPT-3 pode (a) alucinar fatos falsos sobre o conteúdo, (b) gerar declarações tóxicas ou (c) incorporar implicitamente preconceitos sociais no resumo e nas probabilidades de resposta.
Referências
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, e outros. Os modelos de linguagem são aprendizes rápidos. Avanços em sistemas de processamento de informação neural, 33:1877–1901, 2020.
[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee e Byoung-Tak Zhang. DramaQA: compreensão da história em vídeo centrada no personagem com controle de qualidade hierárquico. Pré-impressão do arXiv arXiv:2005.03356, 2020.
[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee e Byoung-Tak Zhang. Dramaqa: compreensão da história em vídeo centrada no personagem com controle de qualidade hierárquico. Em Anais da Conferência AAAI sobre Inteligência Artificial, volume 35, páginas 1166–1174, 2021.
[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang e Heng Huang. Modelo de atenção multimodal aprimorada com memória heterogênea para resposta a perguntas em vídeo. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões, páginas 1999–2007, 2019.
[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang e Zicheng Liu. Violeta: Transformadores de linguagem de vídeo de ponta a ponta com modelagem de token visual mascarado. Pré-impressão do arXiv arXiv:2111.12681, 2021.
[6] Jiyang Gao, Runzhou Ge, Kan Chen e Ram Nevatia. Redes de co-memória de aparência de movimento para resposta a perguntas em vídeo. Em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões, páginas 6576–6585, 2018.
[7]Philip John Gorinski e Mirella Lapata. Resumo de roteiro de filme como extração de cena baseada em gráfico. Na NAACL, 2015.
[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao e Xuedong Huang. Z-code++: um modelo de linguagem pré-treinado otimizado para resumo abstrativo. ArXiv, abs/2208.09770, 2022.
[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim e Gunhee Kim. Tgif-qa: Rumo ao raciocínio espaço-temporal na resposta visual a perguntas. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 2758–2766, 2017.
[10] Bhavan Jasani, Rohit Girdhar e Deva Ramanan. Estamos fazendo as perguntas certas no movieqa? Nos Anais da Conferência Internacional IEEE/CVF sobre Workshops de Visão Computacional, páginas 0–0, 2019.
[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim e Chang D Yoo. Rede de memória de atenção progressiva para respostas a perguntas de histórias de filmes. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 8337–8346, 2019.
[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim e Chang D Yoo. Rede de memória de atenção progressiva para respostas a perguntas de histórias de filmes. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 8337–8346, 2019.
[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi e Byoung-Tak Zhang. Deepstory: história em vídeo qa por redes de memória profundamente incorporadas. Em Anais da 26ª Conferência Conjunta Internacional sobre Inteligência Artificial, páginas 2016–2022, 2017.
[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang e Nojun Kwak. Pré-treinamento autosupervisionado e aprendizagem de representação contrastiva para controle de qualidade de vídeo de múltipla escolha. Em AAAI, 2021.
[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung e JongHyeok Lee. Resumo de roteiro baseado em transformador usando representação de aprendizagem aumentada com informações de diálogo. Em NUSE, 2021.
[16] Jie Lei, Licheng Yu, Mohit Bansal e Tamara L Berg. Tvqa: Resposta a perguntas em vídeo composicional e localizada. Em EMNLP, 2018.
[17] Jie Lei, Licheng Yu, Tamara L Berg e Mohit Bansal. Tvqa+: Base espaço-temporal para resposta a perguntas em vídeo. No Relatório Técnico, arXiv, 2019.
[18] Junnan Li, Dongxu Li, Caiming Xiong e Steven Hoi. Blip: Inicializando o pré-treinamento de linguagem e imagem para compreensão e geração de linguagem de visão unificada. No ICML, 2022.
[19] Chin-Yew Lin. ROUGE: Um pacote para avaliação automática de resumos. Em Text Summarization Branches Out, páginas 74–81, Barcelona, Espanha, julho de 2004. Association for Computational Linguistics. URL //aclanthology.org/W04-1013.
[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen e Tyng-Luh Liu. A2a: Atenção ao raciocínio de atenção para responder perguntas de filmes. Em Computer Vision – ACCV 2018: 14th Asian Conference on Computer Vision, Perth, Austrália, 2 a 6 de dezembro de 2018, Artigos Selecionados Revisados, Parte VI 14, páginas 404–419. Springer, 2019.
[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong e Hanqing Lu. Rede convolucional temporal hierárquica dupla com normalização dinâmica com reconhecimento de qa para resposta a perguntas de histórias em vídeo. Nos Anais da 28ª Conferência Internacional ACM sobre Multimídia, páginas 4253–4261, 2020.
[22] Seil Na, Sangho Lee, Jisung Kim e Gunhee Kim. Uma rede de memória de leitura e escrita para compreensão de histórias de filmes. Em Anais da Conferência Internacional IEEE sobre Visão Computacional, páginas 677–685, 2017.
[23] Pinelopi Papalampidi, Frank Keller e Mirella Lapata. Análise do enredo do filme através da identificação de pontos de viragem. Nos Anais da Conferência de 2019 sobre Métodos Empíricos em Processamento de Linguagem Natural e da 9ª Conferência Conjunta Internacional sobre Processamento de Linguagem Natural (EMNLP-IJCNLP), novembro de 2019.
[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann e Mirella Lapata. Resumo do roteiro utilizando estrutura narrativa latente. Na Reunião Anual da Association for Computational Linguistics, 2020.
[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, e outros. Aprendendo modelos visuais transferíveis com supervisão de linguagem natural. Na Conferência Internacional sobre Aprendizado de Máquina, páginas 8748–8763. PMLR, 2021.
[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville e Bernt Schiele. Descrição do filme. IJCV, 2017.
[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun e Sanja Fidler. Movieqa: Compreendendo histórias em filmes por meio de respostas a perguntas. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões, páginas 4631–4640, 2016.
[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum e Chuang Gan. Star: Uma referência para raciocínio situado em vídeos do mundo real. Na Trigésima Quinta Conferência sobre Conjuntos de Dados e Benchmarks de Sistemas de Processamento de Informação Neural (Rodada 2), 2021.
[29] Junbin Xiao, Xindi Shang, Angela Yao e Tat-Seng Chua. Next-qa: Próxima fase de resposta a perguntas para explicar ações temporais. Em Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, páginas 9777–9786, 2021.
[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He e Yueting Zhuang. Resposta a perguntas em vídeo por meio de atenção gradualmente refinada sobre aparência e movimento. Em Anais da 25ª conferência internacional ACM sobre Multimídia, páginas 1645–1653, 2017.
[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev e Cordelia Schmid. Basta perguntar: aprendendo a responder perguntas de milhões de vídeos narrados. Em Anais da Conferência Internacional IEEE/CVF sobre Visão Computacional, páginas 1686–1697, 2021.
[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu e Lijuan Wang. Um estudo empírico do gpt-3 para vqa baseado em conhecimento de poucos disparos. Pré-impressão do arXiv arXiv:2109.05014, 2021.
[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi e Yejin Choi. Merlot: Modelos de conhecimento de script neural multimodal. Em M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang e J. Wortman Vaughan, editores, Advances in Neural Information Processing Systems, volume 34, páginas 23634–23651. Curran Associates, Inc., 2021. URL //proceedings.neurips.cc/paper/2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi e Yejin Choi. Reserva Merlot: Conhecimento da escrita neural através da visão, linguagem e som. Nos Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões (CVPR), 2022.
[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, et al. Modelos socráticos: Compondo o raciocínio multimodal zero-shot com a linguagem. 2022.
[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles e Min Sun. Aproveitar as descrições dos vídeos para aprender a responder às perguntas dos vídeos. Dentro Anais da Conferência AAAI sobre Inteligência Artificial, volume 31, 2017.
[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh e Peter Liu. Pegasus: Pré-treinamento com sentenças lacunares extraídas para resumo abstrativo. Na Conferência Internacional sobre Aprendizado de Máquina, páginas 11328–11339. PMLR, 2020.
[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He e Yueting Zhuang. Resposta a perguntas em vídeo por meio de aprendizagem hierárquica em rede de atenção de nível duplo. Em Anais da 25ª conferência internacional ACM sobre Multimídia, páginas 1050–1058, 2017.