В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, который превосходит контролируемые модели, используя повествовательные резюме и визуальное сопоставление.
Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( ); (2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( ).
Для всех экспериментов мы используем GPT-3 [1] (text-davinci-003) в качестве базовой языковой модели. Если не указано иное, мы используем границу клипа основной истины для сегментации видео. Все варианты LSS не используют никаких обучающих данных и, следовательно, являются методами с нулевым выстрелом.
3.1. Оценка длинной истории вкратце
MovieQA [27] — это крупномасштабный набор данных для контроля качества, полученный из 408 фильмов. В наборе данных имеется несколько источников информации; субтитры, сценарии, ДВС, видеоклипы и сюжеты. Мы сообщаем о четырех современных контролируемых базовых показателях; A2A [20], PAMN [11], UniversalQA [10] и DHTCN [21].
В таблице 1 показано улучшение LSS с нулевым впрыском по сравнению с предыдущими контролируемыми подходами. Кроме того, Ours-search показывает высокие результаты даже без метки индекса сегмента достоверной информации. CLIPCeck немного повышает точность разделения видео. Однако разница незначительна, поскольку MovieQA часто требует изучения персонажей, а не общего визуального соответствия. Наконец, мы экспериментируем с нулевой гипотезой: No Context проверяет, решает ли GPT-3 MovieQA, просто запоминая каждый факт. No Context работает хуже, чем LSS, отвергая нулевую гипотезу.
PororoQA [13] — это набор данных QA для видеоисторий, созданный на основе мультсериала. Контролируемая базовая линия учитывает график, созданный человеком, и индекс сегмента наземного видео, а LSS +Plot+Search не учитывает ни того, ни другого.
В таблице 2 суммированы наши результаты по набору данных PororoQA. При использовании как основного эпизода, так и сюжетов GPT-3 работает почти на одном уровне с контролируемым базовым уровнем. Замена сводки, созданной человеком, на сводку, созданную моделью, приводит лишь к незначительному снижению производительности. Возможно, что интересно, процесс поиска работает лучше при использовании графиков, созданных на основе модели. Мы связываем этот результат с тем, что человеческие аннотации не предназначены для различения эпизодов.
3.2. Оценка CLIPScheck
DramaQA [3] — это набор данных для контроля качества видео, который фокусируется на понимании истории. Набор данных организован с четырьмя уровнями иерархической сложности, которые соответствуют стадиям когнитивного развития человека. Мы оцениваем LSS на двух высоких уровнях DramaQA, чтобы проверить понимание сюжета. Мы сообщаем о двух последних базовых показателях DramaQA по уровням; CharacterAttention и Ким и др. [14].
Мы сравниваем эффект CLICheck и Caption, основанного на подсказках метода включения описаний кадров изображения, извлеченных из BLIP [18], в качестве входных данных для GPT-3. Таблица 3 показывает, что CLIPCeck обеспечивает большее улучшение, чем описания изображений. Кроме того, хотя добавление подписей к изображениям улучшает LSS, выигрыш исчезает при совместном использовании с CLIPCeck. Мы подозреваем, что это связано с тем, что заголовки кадров предоставляют аналогичную информацию CLIPCeck, но при этом содержат гораздо больше шума. Обратите внимание, что автоматические подписи здесь не являются неотъемлемым компонентом LSS. Поскольку DramaQA уже визуально обосновал аннотации, добавление автоматических подписей к изображениям не обязательно улучшит производительность модели. Скорее, мы используем подписи для явного сравнения ранних и поздних методов визуального выравнивания.
Наконец, мы проверяем, использует ли CLICheck предвзятость набора данных вместо понимания визуального контекста. С этой целью мы разработали вариант CLIPCheck со случайным визуальным контекстом (CLIPCheck-Shuffle). CLICheck-Shuffle не улучшается по сравнению с LSS без CLICheck, что опровергает гипотезу смещения.
3.3. Исследование абляции
Важны ли для понимания повествования и обобщение, и поиск? Здесь мы оцениваем варианты LSS с полным контекстом без повествовательного поиска (LSS-Full) или с кратким описанием сюжета и случайным сегментом в качестве входных данных (LSS-Random). В таблице 4 показано, что как LSS-Full, так и LSS-Random отстают от LSS-Search, что указывает на важность поиска. Обратите внимание, что мы не смогли использовать полный контекст в LSS-Full из-за ограничения длины токена. Вместо этого мы используем самый длинный префикс полного контекста, который принимает GPT3 (4000 токенов минус длина инструкции).
3.4. Качественные результаты
На рис. 3 показана автоматическая сводка графика, созданная в качестве промежуточного контекста контроля качества длинного видео с использованием языковой модели в рамках LSS. Как показано в качественном образце, сгенерированные графики хорошо согласуются с написанными человеком графиками из Википедии. Например, в первой сцене фильма «Гарри Поттер и дары смерти» в кратком описании ЛСС правильно написано, что Гарри Поттеру на данный момент 17 лет и главное событие, в котором пожиратели смерти нападают на главного героя.
На рисунке 4 изображена связь между искомым фрагментом сюжета и вероятностью ответа. В примере слева полученное резюме сообщает, что Тренч совершил преступление и поэтому находится в бегах, что позволяет предположить, что другой персонаж, заинтересованный в нем, будет его преследовать. Языковая модель понимает этот контекст, чтобы правильно изменить вероятность ответа. В правом примере сюжет LSS предполагает, что Эдвард уверен в своем решении. Хотя этот контекст не дает прямой подсказки к вопросу, языковая модель рассматривает его как достаточно убедительную информацию, чтобы изменить ответ.
L O A D I N G . . . comments & more!
About Author
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.