Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( ); (2) Youngjae Yu, MIR Lab Yonsei University ( ).Resumo de filmes Os filmes são exemplos típicos de vídeos longos com estruturas narrativas claras. Gorinski et al. [7]gerar a versão mais curta de um roteiro como a tarefa de encontrar uma cadeia gráfica ideal de uma cena de filme. TRIPOD [23] é um conjunto de dados de roteiro contendo anotações de pontos de viragem. No mesmo trabalho é proposto um modelo automático para identificar o ponto de inflexão nas narrativas cinematográficas. Papalampidi et al. [24] mais tarde usa a série de TV CSI para demonstrar a utilidade dos pontos decisivos na sumarização automática de filmes. Lee et al. [15] melhora ainda mais a identificação do ponto de inflexão com recursos de diálogo e arquitetura do transformador.
Controle de qualidade de vídeo longo A tarefa de responder a perguntas em vídeo foi estudada extensivamente na literatura na forma de controle de qualidade aberto [9] e problemas de múltipla escolha [28, 29]. Várias abordagens foram propostas para resolver esta tarefa, começando com redes de atenção baseadas em RNN [9, 30, 36, 38], até redes de memória [12, 22, 27] e transformadores [4, 6]. Recentemente, modelos multimodais pré-treinados em conjuntos de dados de vídeo em grande escala (VideoQA [31], VIOLET [5] e MERLOT [33] e MERLOT-Reserve [34]) também mostram desempenho promissor na resposta a perguntas de vídeo.