Метод суммирования, а затем поиска для ответов на длинные видео-вопросы: соответствующая работа

к Kinetograph: The Video Editing Technology Publication2m2024/05/26

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, который превосходит контролируемые модели, используя повествовательные резюме и визуальное сопоставление.

featured image - Метод суммирования, а затем поиска для ответов на длинные видео-вопросы: соответствующая работа

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( ); (2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( ).

Таблица ссылок

4. Сопутствующая работа

Краткое описание фильма Фильмы являются типичными примерами длинных видеороликов с четкой повествовательной структурой. Горинский и др. [7] сгенерировали более короткую версию сценария как задачу поиска оптимальной цепочки графов сцены фильма. TRIPOD [23] — это набор данных сценария, содержащий аннотации поворотных моментов. В этой же работе предлагается автоматическая модель определения переломного момента по кинонарративам. Папалампиди и др. [24] позже использует телесериал «CSI», чтобы продемонстрировать полезность поворотных моментов в автоматическом обобщении фильмов. Ли и др. [15] еще больше улучшает идентификацию поворотных моментов с помощью функций диалога и архитектуры преобразователя.

QA длинного видео. Задача ответа на видеовопросы широко изучалась в литературе как в форме открытого QA [9], так и задач с множественным выбором [28, 29]. Для решения этой задачи было предложено несколько подходов, начиная от сетей внимания на основе RNN [9, 30, 36, 38] и заканчивая сетями памяти [12, 22, 27] и преобразователями [4, 6]. Недавно мультимодальные модели, предварительно обученные на крупномасштабных наборах видеоданных (VideoQA [31], VIOLET [5], MERLOT [33] и MERLOT-Reserve [34]), также демонстрируют многообещающую эффективность при ответах на видеовопросы.

Однако контролю качества длинных видео уделяется относительно меньше внимания, несмотря на их важность. MovieQA [27] формулирует контроль качества для всего фильма, который обычно занимает два долгих часа. DramaQA [3] использует один сериал в качестве визуального контекста и ставит перед решателем задачу понять видеоклипы продолжительностью от одной до двадцати минут.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

БИРКИ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas