Yazarlar:
(1) Jiwan Chung, MIR Lab Yonsei Üniversitesi ( ); (2) Youngjae Yu, MIR Lab Yonsei Üniversitesi ( ).Film Özetleme Filmler, net anlatım yapılarına sahip uzun videoların tipik örnekleridir. Gorinski ve ark. [7]bir film sahnesinin optimal grafik zincirini bulma görevi olarak senaryonun daha kısa versiyonunu oluşturmak. TRIPOD [23] dönüm noktası açıklamalarını içeren bir senaryo veri kümesidir. Aynı çalışmada film anlatılarından dönüm noktalarının belirlenmesine yönelik otomatik bir model önerilmektedir. Papalampidi ve ark. [24] daha sonra otomatik film özetlemede dönüm noktalarının kullanışlılığını göstermek için CSI TV dizisini kullanır. Lee ve ark. [15] diyalog özellikleri ve transformatör mimarisiyle dönüm noktası tanımlamasını daha da geliştirir.
Uzun Videolu QA Videolu soru yanıtlama görevi, literatürde hem Açık Uçlu QA [9] hem de Çoktan Seçmeli Problemler [28, 29] şeklinde kapsamlı bir şekilde incelenmiştir. Bu görevi ele almak için RNN tabanlı dikkat ağlarından [9, 30, 36, 38] başlayarak bellek ağlarına [12, 22, 27] ve transformatörlere [4, 6] kadar çeşitli yaklaşımlar önerilmiştir. Son zamanlarda, büyük ölçekli video veri kümeleri (VideoQA [31], VIOLET [5] ve MERLOT [33] ve MERLOT-Reserve [34]) üzerinde önceden eğitilmiş çok modlu modeller, video soru yanıtlamada da umut verici bir performans göstermektedir.