Um método de resumir e pesquisar para responder a perguntas longas em vídeo: trabalhos relacionados

por Kinetograph: The Video Editing Technology Publication2m2024/05/26

Muito longo; Para ler

Neste artigo, os pesquisadores exploram o controle de qualidade de vídeo zero-shot usando GPT-3, superando os modelos supervisionados, aproveitando resumos narrativos e correspondência visual.

featured image - Um método de resumir e pesquisar para responder a perguntas longas em vídeo: trabalhos relacionados

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Yonsei University ( ); (2) Youngjae Yu, MIR Lab Yonsei University ( ).

Tabela de links

4. Trabalho Relacionado

Resumo de filmes Os filmes são exemplos típicos de vídeos longos com estruturas narrativas claras. Gorinski et al. [7]gerar a versão mais curta de um roteiro como a tarefa de encontrar uma cadeia gráfica ideal de uma cena de filme. TRIPOD [23] é um conjunto de dados de roteiro contendo anotações de pontos de viragem. No mesmo trabalho é proposto um modelo automático para identificar o ponto de inflexão nas narrativas cinematográficas. Papalampidi et al. [24] mais tarde usa a série de TV CSI para demonstrar a utilidade dos pontos decisivos na sumarização automática de filmes. Lee et al. [15] melhora ainda mais a identificação do ponto de inflexão com recursos de diálogo e arquitetura do transformador.

Controle de qualidade de vídeo longo A tarefa de responder a perguntas em vídeo foi estudada extensivamente na literatura na forma de controle de qualidade aberto [9] e problemas de múltipla escolha [28, 29]. Várias abordagens foram propostas para resolver esta tarefa, começando com redes de atenção baseadas em RNN [9, 30, 36, 38], até redes de memória [12, 22, 27] e transformadores [4, 6]. Recentemente, modelos multimodais pré-treinados em conjuntos de dados de vídeo em grande escala (VideoQA [31], VIOLET [5] e MERLOT [33] e MERLOT-Reserve [34]) também mostram desempenho promissor na resposta a perguntas de vídeo.

No entanto, o controle de qualidade de vídeos longos recebeu relativamente menos atenção, apesar de sua importância. MovieQA [27] formula QAs para filmes inteiros, que normalmente duram duas longas horas. DramaQA [3] usa uma única série de TV como contexto visual e encarrega um solucionador de entender videoclipes com duração de um a vinte minutos.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

Rótulos

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

ESTE ARTIGO FOI APRESENTADO EM...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas