দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সীমাবদ্ধতা এবং উল্লেখ

দ্বারা Kinetograph: The Video Editing Technology Publication6m2024/05/26

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।

featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সীমাবদ্ধতা এবং উল্লেখ

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( ); (2) Youngjae Yu, MIR ল্যাব Yonsei University ( )।

লিঙ্কের টেবিল

6. সীমাবদ্ধতা

আমাদের অধ্যয়নের কিছু সীমাবদ্ধতা রয়েছে, যার মধ্যে রয়েছে:

আমরা শুধুমাত্র ইংরেজি সাবটাইটেল সহ ভিডিও নিয়ে পরীক্ষা করি। যাইহোক, আমাদের পদ্ধতি একটি শক্তিশালী বহুভাষিক ভাষার মডেল দেওয়া বহু-ভাষিক প্রসঙ্গ অন্তর্ভুক্ত করার জন্য প্রসারিত করা যেতে পারে।
বৃহৎ ভাষা মডেল, GPT-3-এর উপর অত্যধিক নির্ভরতার কারণে আমাদের পদ্ধতির গণনা এবং মেমরির প্রয়োজনীয়তা যথেষ্ট।
আমরা LLM (GPT-3) এর একটি মাত্র উদাহরণ দিয়ে লং স্টোরি শর্ট মূল্যায়ন করি।

সম্ভাব্য ঝুঁকি। GPT-3 এর সাথে দীর্ঘ ভিডিও প্রসঙ্গের সংক্ষিপ্তকরণ ভাষা মডেলের উন্মুক্ত প্রকৃতির সাথে সম্পর্কিত নৈতিক ঝুঁকি বহন করে। GPT-3 (ক) বিষয়বস্তু সম্পর্কে জাল তথ্যকে হ্যালুসিনেট করতে পারে, (খ) বিষাক্ত উচ্চারণ তৈরি করতে পারে, বা (গ) সারাংশ এবং উত্তরের সম্ভাবনাগুলিতে অন্তর্নিহিতভাবে সামাজিক পক্ষপাতগুলি এম্বেড করতে পারে৷

তথ্যসূত্র

[১] টম ব্রাউন, বেঞ্জামিন মান, নিক রাইডার, মেলানি সুব্বিয়া, জারেড ডি কাপলান, প্রফুল্ল ধারিওয়াল, অরবিন্দ নীলাকান্তন, প্রণব শ্যাম, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, এবং অন্যান্য। ভাষার মডেল অল্প-শট লার্নার্স। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 33:1877-1901, 2020।

[২] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, সেউংচান লি, মিনসু লি, এবং ব্যয়ং-তাক ঝাং। DramaQA: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। arXiv প্রিপ্রিন্ট arXiv:2005.03356, 2020।

[৩] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, মিনসু লি, এবং বিয়ং-তাক ঝাং। ড্রামাকা: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 35, পৃষ্ঠা 1166–1174, 2021।

[৪] চেনইউ ফ্যান, জিয়াওফান ঝাং, শু ঝাং, ওয়েনশেং ওয়াং, চি ঝাং এবং হেং হুয়াং। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য ভিন্নধর্মী মেমরি উন্নত মাল্টিমডাল মনোযোগ মডেল। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE/CVF সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1999–2007, 2019।

[৫] সু-জুই ফু, লিনজি লি, জে গান, কেভিন লিন, উইলিয়াম ইয়াং ওয়াং, লিজুয়ান ওয়াং এবং জিচেং লিউ। ভায়োলেট: মুখোশযুক্ত ভিজ্যুয়াল-টোকেন মডেলিং সহ এন্ড-টু-এন্ড ভিডিও-ভাষা ট্রান্সফরমার। arXiv প্রিপ্রিন্ট arXiv:2111.12681, 2021।

[৬] জিয়াং গাও, রুনঝো জি, কান চেন এবং রাম নেভাতিয়া। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য গতি-আদর্শ সহ-মেমরি নেটওয়ার্ক। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 6576–6585, 2018।

[৭] ফিলিপ জন গোরিনস্কি এবং মিরেলা লাপাতা। গ্রাফ-ভিত্তিক দৃশ্য নিষ্কাশন হিসাবে মুভি স্ক্রিপ্ট সংক্ষিপ্তকরণ. NAACL, 2015-এ।

[৮] পেংচেং হে, বাওলিন পেং, লিয়াং লু, সংঘে ওয়াং, জি মেই, ইয়াং লিউ, রুওচেন জু, হ্যানি হাসান আওয়াদাল্লা, ইউ শি, চেংগুয়াং ঝু, ওয়েন জিওং, মাইকেল জেং, জিয়ানফেং গাও এবং জুয়েডং হুয়াং। Z-code++: বিমূর্ত সংক্ষিপ্তসারের জন্য অপ্টিমাইজ করা একটি প্রাক-প্রশিক্ষিত ভাষা মডেল। ArXiv, abs/2208.09770, 2022।

[৯] ইউনসেওক জ্যাং, ইয়েল সং, ইয়ংজাই ইউ, ইয়ংজিন কিম, এবং গুনহি কিম। Tgif-qa: চাক্ষুষ প্রশ্নের উত্তরে স্থানিক-অস্থায়ী যুক্তির দিকে। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2758–2766, 2017।

[১০] ভবন জাসানি, রোহিত গিরধর, এবং দেব রমনন। আমরা কি মুভিকাতে সঠিক প্রশ্ন করছি? IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন ওয়ার্কশপের কার্যক্রমে, পৃষ্ঠা 0-0, 2019।

[১১] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।

[১২] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।

[১৩] কিয়ং-মিন কিম, মিন-ওহ হিও, সেওং-হো চোই, এবং বাইউং-টাক ঝাং। ডিপস্টোরি: গভীর এমবেডেড মেমরি নেটওয়ার্ক দ্বারা ভিডিও স্টোরি qa। কৃত্রিম বুদ্ধিমত্তার উপর 26 তম আন্তর্জাতিক যৌথ সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2016-2022, 2017।

[১৪] সিওনহুন কিম, সিওহেয়ং জিওং, ইউনবিউল কিম, ইনহো কাং এবং নোজুন কোয়াক। একাধিক-পছন্দের ভিডিও qa-এর জন্য স্ব-তত্ত্বাবধানে প্রাক-প্রশিক্ষণ এবং বিপরীত প্রতিনিধিত্ব শিক্ষা। AAAI, 2021-এ।

[১৫] মিউংজি লি, হং-সিওক কওন, জাহেহুন শিন, ওয়ানকি লি, বাইকজিন জং এবং জংহাইওক লি। ট্রান্সফরমার-ভিত্তিক চিত্রনাট্যের সংক্ষিপ্তকরণ সংলাপের তথ্য সহ অগমেন্টেড লার্নিং উপস্থাপনা ব্যবহার করে। NUSE, 2021-এ।

[১৬] জি লেই, লিচেং ইউ, মোহিত বনসাল, এবং তামারা এল বার্গ। Tvqa: স্থানীয়, রচনামূলক ভিডিও প্রশ্নের উত্তর। EMNLP, 2018-এ।

[১৭] জি লেই, লিচেং ইউ, তামারা এল বার্গ এবং মোহিত বনসাল। Tvqa+: ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য স্প্যাটিও-টেম্পোরাল গ্রাউন্ডিং। টেক রিপোর্টে, arXiv, 2019।

[১৮] জুনান লি, ডংজু লি, কাইমিং জিওং এবং স্টিভেন হোই। ব্লিপ: একীভূত দৃষ্টি-ভাষা বোঝা এবং প্রজন্মের জন্য বুটস্ট্র্যাপিং ভাষা চিত্র প্রাক-প্রশিক্ষণ। ICML, 2022-এ।

[১৯] চিন-ইউ লিন। ROUGE: সারাংশের স্বয়ংক্রিয় মূল্যায়নের জন্য একটি প্যাকেজ। ইন টেক্সট সামারাইজেশন ব্রাঞ্চস আউট, পৃষ্ঠা 74-81, বার্সেলোনা, স্পেন, জুলাই 2004। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস। URL //aclanthology.org/W04-1013।

[20] চাও-নিং লিউ, ডিং-জি চেন, হোয়ান-তজং চেন এবং টাইং-লুহ লিউ। A2a: মুভি প্রশ্নের উত্তরের জন্য মনোযোগ যুক্তির প্রতি মনোযোগ। In Computer Vision–ACCV 2018: 14তম এশিয়ান কনফারেন্স অন কম্পিউটার ভিশন, পার্থ, অস্ট্রেলিয়া, 2-6 ডিসেম্বর, 2018, সংশোধিত নির্বাচিত কাগজপত্র, পার্ট VI 14, পৃষ্ঠা 404–419। স্প্রিংগার, 2019।

[২১] ফেই লিউ, জিং লিউ, জিনসিন ঝু, রিচাং হং এবং হানকিং লু। ভিডিও গল্প প্রশ্নের উত্তরের জন্য qa-সচেতন গতিশীল স্বাভাবিককরণ সহ দ্বৈত শ্রেণিবিন্যাস টেম্পোরাল কনভোলিউশনাল নেটওয়ার্ক। মাল্টিমিডিয়ার উপর 28তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 4253–4261, 2020।

[২২] সিল না, সাংহো লি, জিসুং কিম এবং গুনহি কিম। সিনেমার গল্প বোঝার জন্য একটি রিড-রাইট মেমরি নেটওয়ার্ক। IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 677–685, 2017 এর কার্যপ্রণালীতে।

[২৩] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। টার্নিং পয়েন্ট সনাক্তকরণের মাধ্যমে মুভি প্লট বিশ্লেষণ। ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং-এ অভিজ্ঞতামূলক পদ্ধতির 2019 সম্মেলনের কার্যক্রম এবং 9ম আন্তর্জাতিক যৌথ সম্মেলন অন ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (EMNLP-IJCNLP), নভেম্বর 2019।

[২৪] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার, লিয়া ফ্রেম্যান এবং মিরেলা লাপাতা। সুপ্ত বর্ণনামূলক কাঠামো ব্যবহার করে চিত্রনাট্যের সংক্ষিপ্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 2020-এর বার্ষিক সভায়।

[২৫] অ্যালেক র‌্যাডফোর্ড, জং উক কিম, ক্রিস হ্যালাসি, আদিত্য রমেশ, গ্যাব্রিয়েল গো, সন্ধ্যা আগারওয়াল, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, পামেলা মিশকিন, জ্যাক ক্লার্ক, এবং অন্যান্য। প্রাকৃতিক ভাষা তত্ত্বাবধান থেকে স্থানান্তরযোগ্য ভিজ্যুয়াল মডেল শেখা। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 8748-8763। PMLR, 2021।

[২৬] আনা রোহরবাখ, আতুসা তোরাবি, মার্কাস রোহরবাচ, নিকেত ট্যান্ডন, ক্রিস্টোফার পাল, হুগো লারোচেল, অ্যারন কোরভিল এবং বার্ন্ট শিয়েল। মুভির বিবরণ। IJCV, 2017।

[২৭] মকরন্দ তপস্বী, ইউকুন ঝু, রেনার স্টিফেলহেগেন, আন্তোনিও তোরালবা, রাকেল উরতাসুন এবং সানজা ফিডলার। মুভিকা: প্রশ্ন-উত্তর দিয়ে সিনেমার গল্প বোঝা। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 4631–4640, 2016।

[২৮] বো উ, শোবিন ইউ, জেনফাং চেন, জোশুয়া বি টেনেনবাউম এবং চুয়াং গান। তারকা: বাস্তব-বিশ্বের ভিডিওতে অবস্থিত যুক্তির জন্য একটি মানদণ্ড। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম ডেটাসেট এবং বেঞ্চমার্কস ট্র্যাক (রাউন্ড 2), 2021-এর পঁয়ত্রিশতম সম্মেলনে।

[২৯] জুনবিন জিয়াও, জিন্দি শাং, অ্যাঞ্জেলা ইয়াও এবং তাত-সেং চুয়া। Next-qa: সাময়িক ক্রিয়া ব্যাখ্যা করার জন্য প্রশ্ন-উত্তরের পরবর্তী ধাপ। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 9777–9786, 2021।

[৩০] দেজিং জু, ঝাউ ঝাও, জুন জিয়াও, ফেই উ, হানওয়াং ঝাং, জিয়াংনান হে এবং ইউয়েটিং ঝুয়াং। চেহারা এবং গতির উপর ধীরে ধীরে পরিশ্রুত মনোযোগের মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1645–1653, 2017।

[৩১] অ্যান্টোইন ইয়াং, অ্যান্টোইন মিচ, জোসেফ সিভিক, ইভান ল্যাপ্টেভ এবং কর্ডেলিয়া স্মিড। শুধু জিজ্ঞাসা করুন: লক্ষাধিক বর্ণিত ভিডিও থেকে প্রশ্নের উত্তর দিতে শেখা। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 1686–1697, 2021 এর কার্যপ্রণালীতে।

[৩২] ঝেংগুয়ান ইয়াং, ঝে গান, জিয়ানফেং ওয়াং, জিয়াওই হু, ইউমাও লু, জিচেং লিউ এবং লিজুয়ান ওয়াং। অল্প-শট জ্ঞান-ভিত্তিক vqa-এর জন্য gpt-3-এর একটি অভিজ্ঞতামূলক অধ্যয়ন। arXiv প্রিপ্রিন্ট arXiv:2109.05014, 2021।

[৩৩] রোয়ান জেলার্স, জিমিং লু, জ্যাক হেসেল, ইয়ংজাই ইউ, জে সুং পার্ক, জিজে কাও, আলী ফারহাদি এবং ইয়েজিন চোই। Merlot: মাল্টিমোডাল নিউরাল স্ক্রিপ্ট জ্ঞান মডেল। M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang, এবং J. Wortman Vaughan, সম্পাদক, অ্যাডভান্সেস ইন নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম, ভলিউম 34, পৃষ্ঠা 23634–23651। Curran Associates, Inc., 2021. URL //proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.

[৩৪] রোয়ান জেলার্স, জিয়াসেন লু, জিমিং লু, ইয়ংজাই ইউ, ইয়ানপেং ঝাও, মোহাম্মদরেজা সালেহি, আদিত্য কুসুপাতি, জ্যাক হেসেল, আলী ফারহাদি, এবং ইয়েজিন চোই। মেরলট রিজার্ভ: দৃষ্টি এবং ভাষা এবং শব্দের মাধ্যমে নিউরাল স্ক্রিপ্ট জ্ঞান। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (CVPR), 2022 এর কার্যক্রমে।

[৩৫] অ্যান্ডি জেং, অ্যাড্রিয়ান ওং, স্টেফান ওয়েল্কার, ক্রজিসটফ চোরোমানস্কি, ফেদেরিকো তোমবারি, আভিক পুরোহিত, মাইকেল এস রিও, বিকাশ সিন্ধওয়ানি, জনি লি, ভিনসেন্ট ভ্যানহুকে, এবং অন্যান্য। সক্রেটিক মডেল: ভাষার সাথে শূন্য-শট মাল্টিমোডাল যুক্তি রচনা করা। 2022।

[৩৬] কুও-হাও জেং, সেং-হাং চেন, চিং-ইয়াও চুয়াং, ইউয়ান-হং লিয়াও, জুয়ান কার্লোস নিবেলস এবং মিন সান। ভিডিও প্রশ্নের উত্তর শেখার জন্য ভিডিও বিবরণের ব্যবহার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 31, 2017।

[৩৭] জিংকিং ঝাং, ইয়াও ঝাও, মোহাম্মদ সালেহ এবং পিটার লিউ। পেগাসাস: বিমূর্ত সারাংশের জন্য নিষ্কাশিত ফাঁক-বাক্য সহ প্রাক-প্রশিক্ষণ। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 11328-11339। PMLR, 2020।

[৩৮] ঝাউ ঝাও, জিংহাও লিন, জিংহুয়া জিয়াং, দেং কাই, জিয়াওফি হে এবং ইউয়েটিং ঝুয়াং। শ্রেণীবদ্ধ দ্বৈত-স্তরের মনোযোগ নেটওয়ার্ক শিক্ষার মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1050-1058, 2017।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

আসে ট্যাগ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas