3,193 रीडिंग

eDiffi का एक परिचय: NVIDIA का नया SOTA छवि संश्लेषण मॉडल

द्वारा Louis Bouchard5m2022/11/05

बहुत लंबा; पढ़ने के लिए

eDiffi, NVIDIA का सबसे हालिया मॉडल, DALLE 2 या स्टेबल डिफ्यूजन जैसे पिछले सभी तरीकों की तुलना में बेहतर दिखने वाली और अधिक सटीक छवियां उत्पन्न करता है। eDiffi आपके द्वारा भेजे जाने वाले टेक्स्ट को बेहतर ढंग से समझता है और अधिक अनुकूलन योग्य है, एक ऐसी सुविधा को जोड़ते हुए जिसे हमने NVIDIA के पिछले पेपर में देखा था: पेंटर टूल। वीडियो में और जानें...

featured image - eDiffi का एक परिचय: NVIDIA का नया SOTA छवि संश्लेषण मॉडल

eDiffi, NVIDIA का सबसे हालिया मॉडल, DALLE 2 या स्टेबल डिफ्यूजन जैसे पिछले सभी तरीकों की तुलना में बेहतर दिखने वाली और अधिक सटीक छवियां उत्पन्न करता है। eDiffi आपके द्वारा भेजे जाने वाले टेक्स्ट को बेहतर ढंग से समझता है और अधिक अनुकूलन योग्य है, एक ऐसी सुविधा जो हमने NVIDIA के पिछले पेपर में देखी थी: पेंटर टूल। वीडियो में और जानें...

संदर्भ

►पूरा लेख पढ़ें:
बालाजी, वाई. एट अल।, 2022, ईडिफी: टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल्स विथ एन एसेंबल ऑफ एक्सपर्ट डेनोइज़र्स,
प्रोजेक्ट पेज:
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!):

वीडियो प्रतिलेख

0:06 के लिए नया अत्याधुनिक दृष्टिकोण 0:08 छवि संश्लेषण यह बेहतर उत्पन्न करता है 0:10 दिखने वाली और अधिक सटीक छवियां 0:13 दिल्ली 2 or . जैसे सभी पिछले दृष्टिकोण 0:15 स्थिर प्रसार या तो अगर वह बेहतर है 0:17 आपके द्वारा भेजे गए पाठ को समझता है और है 0:19 एक नई सुविधा जोड़ने से अधिक अनुकूलन योग्य 0:21 हमने एनवीडिया के पिछले पेपर में देखा था 0:23 चित्रकार उपकरण जैसा कि वे देखते हैं कि आप कर सकते हैं 0:26 संक्षेप में शब्दों के साथ पेंट करें इसका मतलब है आप 0:29 कुछ विषयों में प्रवेश कर सकते हैं और पेंट कर सकते हैं 0:32 छवि यहाँ क्या दिखाई देनी चाहिए और 0:34 वहां आपको और भी बहुत कुछ बनाने की अनुमति मिलती है 0:36 यादृच्छिक की तुलना में अनुकूलित छवियां 0:39 एक संकेत के बाद की पीढ़ी यह है 0:41 अगला स्तर आपको सुंदर बनाने में सक्षम बनाता है 0:43 आपके पास मौजूद सटीक छवि प्राप्त करें 0:45 बस एक भयानक जल्दी खींच कर मन 0:47 कुछ ऐसा स्केच करें जो मैं भी कर सकता हूँ जैसा मैं करता हूँ 0:50 उल्लेख किया परिणाम केवल सोटा नहीं हैं 0:52 और स्थिर प्रसार से बेहतर दिख रहा है 0:55 लेकिन वे अधिक नियंत्रणीय भी हैं 0:57 बेशक यह एक अलग उपयोग के मामले के रूप में है 0:59 इसे थोड़ा और काम और स्पष्ट करने की आवश्यकता है 1:02 ऐसा ड्राफ्ट बनाने के लिए आईडी को ध्यान में रखें लेकिन 1:04 यह निश्चित रूप से बहुत ही रोमांचक है और 1:06 दिलचस्प यह भी है कि मैं क्यों चाहता था 1:08 इसे मेरे चैनल पर कवर करें क्योंकि यह नहीं है 1:11 केवल एक बेहतर मॉडल लेकिन यह भी a 1:13 बहुत अधिक के साथ अलग दृष्टिकोण 1:15 आउटपुट पर नियंत्रण उपकरण नहीं है 1:17 दुर्भाग्य से अभी तक उपलब्ध है लेकिन मुझे यकीन है 1:19 आशा है कि यह जल्द ही आपके रास्ते में होगा 1:22 को सब्सक्राइब जरूर करना चाहिए 1:23 चैनल और मुझे ट्विटर पर फॉलो करें what 1:25 नमस्ते कहो अगर आपको इस तरह का वीडियो पसंद है 1:27 और आसानी से पहुंचना चाहते हैं 1:30 इस पर सुपाच्य खबर भारी 1:32 जटिल क्षेत्र एक और जीत जो वे 1:34 आपको इसमें अधिक नियंत्रण रखने की अनुमति देता है 1:37 नया मॉडल उसी सुविधा का उपयोग करके है 1:39 हमने देखा लेकिन अलग तरह से वास्तव में मॉडल 1:42 एक वाक्य द्वारा निर्देशित चित्र उत्पन्न करता है 1:44 लेकिन इसे a . का उपयोग करके भी प्रभावित किया जा सकता है 1:47 त्वरित स्केच तो यह मूल रूप से एक लेता है 1:49 छवि और एक पाठ इनपुट के रूप में इसका अर्थ है 1:52 आप अन्य सामान कर सकते हैं जैसा कि यह समझता है 1:54 चित्र यहाँ वे इसका लाभ उठाते हैं 1:56 एक शैली विकसित करके क्षमता 1:58 स्थानांतरण दृष्टिकोण जहां आप कर सकते हैं 2:00 छवि की शैली को प्रभावित करें 2:02 एक छवि देने वाली पीढ़ी की प्रक्रिया 2:04 आपके साथ एक विशेष शैली अच्छी तरह से 2:06 टेक्स्ट इनपुट यह सुपर कूल और जस्ट है 2:09 उन परिणामों को देखें जिनके लिए वे बोलते हैं 2:11 अपने आप में यह अविश्वसनीय है दोनों की पिटाई 2:14 सोटा स्टाइल ट्रांसफर मॉडल और इमेज 2:16 एकल दृष्टिकोण के साथ संश्लेषण मॉडल 2:18 अब सवाल यह है कि एनवीडिया कैसे हो सकता है? 2:22 एक मॉडल विकसित करें जो बेहतर बनाता है 2:23 छवियों को देखने से अधिक नियंत्रण सक्षम होता है 2:26 दोनों शैली और छवि संरचना 2:29 साथ ही बेहतर समझ और 2:31 आप वास्तव में क्या चाहते हैं इसका प्रतिनिधित्व करते हैं 2:34 आपका पाठ अच्छी तरह से वे विशिष्ट बदलते हैं 2:36 प्रसार वास्तुकला दो तरह से पहले 2:39 वे दो अलग-अलग का उपयोग करके टेक्स्ट को एन्कोड करते हैं 2:41 दृष्टिकोण जिन्हें मैंने पहले ही कवर कर लिया है 2:43 चैनल जिसे हम क्लिप और T5 . के रूप में संदर्भित करते हैं 2:46 एन्कोडर्स इसका मतलब है कि वे उपयोग करेंगे 2:48 पाठ लेने के लिए पूर्व-प्रशिक्षित मॉडल और 2:50 पर ध्यान केंद्रित करते हुए विभिन्न एम्बेडिंग बनाएं 2:52 विभिन्न विशेषताओं के रूप में उन्हें प्रशिक्षित किया जाता है 2:55 और अलग तरह से व्यवहार किया और अर्थ हैं 2:57 केवल प्रतिनिधित्व जो अधिकतम करते हैं 3:00 वाक्य वास्तव में के लिए मतलब है 3:01 एल्गोरिदम या समझने की मशीन 3:04 यह इनपुट छवि के संबंध में वे बस 3:06 क्लिप एम्बेडिंग का भी उपयोग करें 3:08 मूल रूप से छवि को एन्कोड करना ताकि 3:11 मॉडल इसे समझ सकता है जो आप कर सकते हैं 3:13 मेरे अन्य वीडियो के बारे में अधिक जानें 3:14 जनरेटिव मॉडल को कवर करना जैसा कि वे हैं 3:16 बहुत कुछ क्लिप पर बनाया गया यह है 3:19 क्या उन्हें अधिक नियंत्रण रखने की अनुमति देता है 3:21 आउटपुट के साथ-साथ संसाधित भी 3:23 केवल पाठ के बजाय पाठ और चित्र 3:25 दूसरा संशोधन a . का उपयोग कर रहा है 3:28 के बजाय प्रसार मॉडल का कैस्केड 3:31 हम के समान पुनरावृत्त रूप से पुन: उपयोग करना 3:33 आमतौर पर प्रसार आधारित मॉडल के साथ करते हैं 3:35 यहाँ उपयोग मॉडल के लिए प्रशिक्षित किया गया है 3:38 जनन प्रक्रिया का विशिष्ट भाग 3:39 जिसका अर्थ है कि प्रत्येक मॉडल के पास नहीं है 3:42 नियमित प्रसार की तरह सामान्य रहें 3:44 denoiser क्योंकि प्रत्येक मॉडल को फोकस करना होता है 3:46 प्रक्रिया के एक विशिष्ट भाग पर यह कर सकता है 3:49 इसमें बहुत बेहतर हो वे इसका इस्तेमाल करते हैं 3:51 दृष्टिकोण क्योंकि उन्होंने देखा कि 3:52 निरूपित करने वाले मॉडल पाठ का उपयोग करते प्रतीत होते हैं 3:55 उन्मुख करने के लिए बहुत अधिक एम्बेडिंग 3:57 की शुरुआत की ओर पीढ़ी 3:59 प्रक्रिया करें और फिर इसका कम से कम उपयोग करें 4:02 आउटपुट क्वालिटी और फिडेलिटी पर ध्यान दें 4:05 यह स्वाभाविक रूप से परिकल्पना लाता है 4:07 जो एक ही denoising मॉडल का पुन: उपयोग कर रहा है 4:09 पूरी प्रक्रिया के दौरान नहीं हो सकता है 4:11 सबसे अच्छी आईडी बनें क्योंकि यह स्वचालित रूप से 4:13 विभिन्न कार्यों पर ध्यान केंद्रित करता है और हम जानते हैं 4:15 कि एक सामान्यवादी विशेषज्ञ से बहुत दूर है 4:18 सभी कार्यों में स्तर क्यों न कुछ का उपयोग करें 4:20 प्राप्त करने के लिए एक सामान्यवादी के बजाय विशेषज्ञ 4:23 बहुत बेहतर परिणाम तो यही वे हैं 4:25 किया और क्यों वे उन्हें denoising कहते हैं 4:28 विशेषज्ञ और इसका मुख्य कारण 4:30 गुणवत्ता में प्रदर्शन में सुधार करता है और 4:32 बाकी की वफादारी 4:34 वास्तुकला अन्य के समान ही है 4:36 अंतिम परिणामों को स्केल करने के दृष्टिकोण 4:38 अन्य मॉडलों के साथ एक उच्च पाने के लिए 4:40 परिभाषा अंतिम छवि छवि और 4:43 वीडियो संश्लेषण क्षेत्र अभी मिल रहे हैं 4:45 आजकल पागल और हम देख रहे हैं 4:47 हर हफ्ते सामने आ रहे प्रभावशाली परिणाम 4:49 मैं अगली रिलीज के लिए बहुत उत्साहित हूं 4:51 और मुझे अलग-अलग दृष्टिकोण देखना अच्छा लगता है 4:53 निपटने के दोनों अभिनव तरीकों के साथ 4:55 समस्या और अलग के लिए भी जा रहा है 4:57 एक बार कहे गए मामलों को एक महान व्यक्ति के रूप में उपयोग करें 5:01 जिंदा रहने का समय क्या है मुझे आशा है कि आपको पसंद आएगा 5:04 दृष्टिकोण का यह त्वरित अवलोकन a 5:06 जो मैं आमतौर पर करता हूं उससे थोड़ा अधिक उच्च स्तर 5:08 जैसा कि मैं पहले से ही अधिकांश भाग लेता हूं 5:10 कई वीडियो में कवर किया गया और बदला गया 5:12 उन्हें अलग तरह से कार्य करने के लिए मैं आपको आमंत्रित करता हूं 5:15 जानने के लिए मेरा स्थिर प्रसार वीडियो देखें 5:17 प्रसार दृष्टिकोण के बारे में थोड़ा और 5:19 स्वयं और एनवीडिया के पेपर को पढ़ें 5:21 इस विशिष्ट दृष्टिकोण के बारे में और जानें 5:23 और इसका कार्यान्वयन मैं आपको देखूंगा 5:26 अगले हफ्ते एक और अद्भुत पेपर के साथ 5:32 विदेशी 5:36 [संगीत]

L O A D I N G
. . . comments & more!