Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchen

von Kinetograph: The Video Editing Technology Publication2m2024/05/26

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.

featured image - Eine Methode zum Beantworten langer Videofragen: Zusammenfassen und dann suchen

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( ); (2) Youngjae Yu, MIR Lab Yonsei University ( ).

Linktabelle

4. Verwandte Arbeiten

Filmzusammenfassung Filme sind typische Beispiele für lange Videos mit klaren Erzählstrukturen. Gorinski et al. [7] erstellen die kürzere Version eines Drehbuchs als Aufgabe, eine optimale Graphenkette einer Filmszene zu finden. TRIPOD [23] ist ein Drehbuch-Datensatz, der Wendepunktanmerkungen enthält. In derselben Arbeit wird ein automatisches Modell zur Erkennung des Wendepunkts aus Filmerzählungen vorgeschlagen. Papalampidi et al. [24] verwenden später die Fernsehserie CSI, um die Nützlichkeit von Wendepunkten bei der automatischen Filmzusammenfassung zu demonstrieren. Lee et al. [15] verbessern die Wendepunkterkennung weiter mit Dialogfunktionen und Transformer-Architektur.

Lange Video-QA Die Aufgabe der Beantwortung von Videofragen wurde in der Literatur ausführlich in Form von offenen QA-Aufgaben [9] und Multiple-Choice-Problemen [28, 29] untersucht. Zur Lösung dieser Aufgabe wurden verschiedene Ansätze vorgeschlagen, angefangen von RNN-basierten Aufmerksamkeitsnetzwerken [9, 30, 36, 38] über Gedächtnisnetzwerke [12, 22, 27] bis hin zu Transformatoren [4, 6]. In jüngster Zeit zeigen multimodale Modelle, die anhand großer Videodatensätze vorab trainiert wurden (VideoQA [31], VIOLET [5] und MERLOT [33] und MERLOT-Reserve [34]), auch bei der Beantwortung von Videofragen vielversprechende Ergebnisse.

Trotz ihrer Bedeutung hat die Qualitätssicherung bei langen Videos relativ wenig Beachtung gefunden. MovieQA [27] formuliert Qualitätssicherungen für ganze Filme, die sich normalerweise über zwei lange Stunden erstrecken. DramaQA [3] verwendet eine einzelne Fernsehserie als visuellen Kontext und beauftragt einen Löser, Videoclips von einer bis zwanzig Minuten Länge zu verstehen.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

Hängeetiketten

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

DIESER ARTIKEL WURDE VORGESTELLT IN...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas