Un método de resumen y luego búsqueda para responder preguntas largas en video: trabajo relacionado

por Kinetograph: The Video Editing Technology Publication2m2024/05/26

Demasiado Largo; Para Leer

En este artículo, los investigadores exploran el control de calidad de video de toma cero utilizando GPT-3, superando a los modelos supervisados, aprovechando los resúmenes narrativos y la comparación visual.

featured image - Un método de resumen y luego búsqueda para responder preguntas largas en video: trabajo relacionado

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Jiwan Chung, MIR Lab Universidad Yonsei ( ); (2) Youngjae Yu, MIR Lab Universidad Yonsei ( ).

Tabla de enlaces

4. Trabajo relacionado

Resumen de películas Las películas son ejemplos típicos de vídeos largos con estructuras narrativas claras. Gorinski et al. [7]generan la versión más corta de un guión como la tarea de encontrar una cadena gráfica óptima de una escena de película. TRIPOD [23] es un conjunto de datos de guiones que contiene anotaciones sobre puntos de inflexión. En el mismo trabajo se propone un modelo automático para identificar el punto de inflexión a partir de narrativas cinematográficas. Papalampidi et al. [24] posteriormente utiliza la serie de televisión CSI para demostrar la utilidad de los puntos de inflexión en el resumen automático de películas. Lee y cols. [15] mejora aún más la identificación del punto de inflexión con funciones de diálogo y arquitectura del transformador.

Control de calidad en video largo La tarea de responder preguntas en video se ha estudiado ampliamente en la literatura en forma de control de calidad abierto [9] y problemas de opción múltiple [28, 29]. Se han propuesto varios enfoques para abordar esta tarea, desde redes de atención basadas en RNN [9, 30, 36, 38] hasta redes de memoria [12, 22, 27] y transformadores [4, 6]. Recientemente, los modelos multimodales previamente entrenados en conjuntos de datos de video a gran escala (VideoQA [31], VIOLET [5] y MERLOT [33] y MERLOT-Reserve [34]) también muestran un rendimiento prometedor en la respuesta a preguntas en video.

Sin embargo, el control de calidad de los vídeos largos ha recibido relativamente menos atención a pesar de su importancia. MovieQA [27] formula controles de calidad para películas completas, que normalmente duran dos largas horas. DramaQA [3] utiliza una sola serie de televisión como contexto visual y asigna a un solucionador la tarea de comprender videoclips de una duración de uno a veinte minutos.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

ETIQUETAS

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

ESTE ARTÍCULO FUE PRESENTADO EN...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas