हमने देखा है कि इससे पहले मॉडल एक वाक्य लेने और में सक्षम थे। हमने किसी वस्तु या विशेष शैली जैसी विशिष्ट अवधारणाओं को सीखकर भी देखा है। पिछले हफ्ते, मेटा ने प्रकाशित किया जिसे मैंने कवर किया, जो आपको एक पाठ वाक्य से एक छोटा वीडियो भी बनाने की अनुमति देता है। परिणाम अभी तक सही नहीं हैं, लेकिन पिछले एक साल से हमने इस क्षेत्र में जो प्रगति की है, वह अविश्वसनीय है। इस सप्ताह हम एक और कदम आगे बढ़ाते हैं। यहां एक नया Google अनुसंधान मॉडल DreamFusion है, जो किसी वाक्य को इतना समझ सकता है कि उसका 3D मॉडल तैयार कर सकता है। आप इसे या के रूप में देख सकते हैं लेकिन 3D में। वह कितना शांत है?! हम वास्तव में इसे ज्यादा ठंडा नहीं बना सकते। लेकिन इससे भी दिलचस्प बात यह है कि यह कैसे काम करता है। आइए इसमें गोता लगाएँ ...
संदर्भ
पूरा लेख पढ़ें:
पूल, बी., जैन, ए., बैरोन, जेटी और मिल्डेनहॉल, बी., 2022. ड्रीमफ्यूजन: टेक्स्ट-टू-3डी यूजिंग 2डी डिफ्यूजन। arXiv प्रीप्रिंट arXiv:2209.14988।
प्रोजेक्ट वेबसाइट:
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!):
वीडियो प्रतिलेख
0:02 हमने देखा है कि मॉडल एक लेने में सक्षम हैं 0:04 वाक्य और चित्र उत्पन्न करें तो अन्य 0:07 उत्पन्न में हेरफेर करने के लिए दृष्टिकोण 0:09 विशिष्ट अवधारणाओं को सीखकर चित्र 0:11 किसी वस्तु या विशेष शैली की तरह 0:13 पिछले हफ्ते मेटा ने मेक ए प्रकाशित किया 0:16 वीडियो मॉडल जिसे मैंने कवर किया है जो अनुमति देता है 0:18 आप से भी एक लघु वीडियो उत्पन्न करने के लिए 0:20 एक पाठ वाक्य परिणाम नहीं हैं 0:22 अभी तक सही लेकिन हमने जो प्रगति की है 0:24 पिछले साल से इस क्षेत्र में ठीक है 0:26 अविश्वसनीय इस सप्ताह हम एक और बनाते हैं 0:28 यहां कदम आगे बढ़ाएं सपना फ्यूजन एक नया 0:32 Google अनुसंधान मॉडल जो कर सकता है 0:34 उत्पन्न करने के लिए पर्याप्त वाक्य को समझें 0:36 इसमें से एक 3D मॉडल आप इसे इस रूप में देख सकते हैं 0:39 एक डेली या स्थिर प्रसार लेकिन 3D . में 0:41 कितना अच्छा है कि हम इसे ज्यादा नहीं बना सकते 0:44 कूलर लेकिन और भी आकर्षक क्या है 0:46 यह कैसे काम करता है आइए इसमें डुबकी लगाते हैं लेकिन 0:49 पहले मुझे बात करने के लिए कुछ सेकंड दें 0:51 संबंधित विषय के बारे में कंप्यूटर दृष्टि 0:53 आप सुनना चाहेंगे कि यदि आप अंदर हैं 0:55 यह क्षेत्र भी इस वीडियो के लिए मैं हूँ 0:57 ऑनलाइन रिकॉर्ड के साथ साझेदारी करना 1:00 कंप्यूटर दृष्टि के लिए सीखने का मंच 1:01 डेटा सबसे महत्वपूर्ण भागों में से एक है 1:04 अभिनव कंप्यूटर विजन बनाने के लिए 1:06 मॉडल इसलिए एनकोड प्लेटफॉर्म है 1:09 बनाने के लिए जमीन से बनाया गया है 1:10 प्रशिक्षण डेटा का निर्माण और 1:12 मशीन लर्निंग मॉडल का परीक्षण 1:14 यह पहले से कहीं ज्यादा तेज है 1:17 यह दो तरह से पहले इसे बनाता है 1:19 व्याख्या और मूल्यांकन का प्रबंधन करना आसान 1:22 की एक श्रृंखला के माध्यम से प्रशिक्षण डेटा 1:24 सहयोगी एनोटेशन उपकरण और 1:25 स्वचालन सुविधाएँ दूसरी बार एन्कोड 1:28 अपने QA वर्कफ़्लोज़ तक पहुँच प्रदान करता है 1:31 और एसडीके ताकि आप अपना खुद का बना सकें 1:33 सक्रिय सीखने की पाइपलाइन तेज हो रही है 1:35 मॉडल विकास और एनकोड का उपयोग करके 1:38 आपको निर्माण में समय बर्बाद करने की आवश्यकता नहीं है 1:39 अपने स्वयं के एनोटेशन टूल आपको दे रहे हैं 1:41 सही डेटा प्राप्त करने पर ध्यान दें 1:44 आपके मॉडल अगर यह दिलचस्प लगता है 1:46 पाने के लिए कृपया नीचे दिए गए पहले लिंक पर क्लिक करें 1:48 एनकोड एक्सक्लूसिव का 28-दिवसीय नि:शुल्क परीक्षण 1:51 हमारे समुदाय के लिए 1:54 यदि आप मेरे काम के सपने का पालन कर रहे हैं 1:56 फ्यूजन काफी सरल है यह मूल रूप से उपयोग करता है 1:59 दो मॉडल मैंने पहले ही Nerfs को कवर कर लिया है और 2:02 उनके में छवि मॉडल के पाठ में से एक 2:04 मामला यह इमोजेन मॉडल है लेकिन और आप 2:07 स्थिर प्रसार या डॉली की तरह करेंगे 2:09 जैसा कि आप जानते हैं कि यदि आप अच्छे रहे हैं 2:11 छात्र और पिछले वीडियो देखे 2:12 Nerfs एक प्रकार का मॉडल है जिसका उपयोग रेंडर करने के लिए किया जाता है 2:15 तंत्रिका चमक उत्पन्न करके 3D दृश्य 2:18 an . की एक या अधिक छवियों में से फ़ील्ड 2:21 वस्तु लेकिन फिर आप कैसे उत्पन्न कर सकते हैं a 2:23 अगर नेरफ मॉडल है तो टेक्स्ट से 3डी रेंडर करें 2:26 केवल उन छवियों के साथ काम करता है जिनका हम उपयोग करते हैं 2:29 छवि उत्पन्न करने के लिए अन्य AI की कल्पना करें 2:31 जो इसे लेता है उससे भिन्नताएं और क्यों 2:34 क्या हम सीधे के बजाय ऐसा करते हैं? 2:36 पाठ से 3D मॉडल उत्पन्न करना क्योंकि 2:38 इसके लिए 3D के विशाल डेटा सेट की आवश्यकता होगी 2:41 उनके एसोसिएटेड के साथ डेटा 2:43 हमारे मॉडल को प्रशिक्षित करने के लिए कैप्शन 2:46 जो बहुत मुश्किल होगा 2:48 इसके बजाय हम एक पूर्व-प्रशिक्षित पाठ का उपयोग करते हैं 2:50 बहुत कम जटिल डेटा वाला छवि मॉडल 2:53 एक साथ और हम इसे 3D में अनुकूलित करते हैं इसलिए यह 2:56 होने के लिए किसी 3D डेटा की आवश्यकता नहीं है 2:57 के लिए केवल पहले से मौजूद AI पर प्रशिक्षित 3:00 चित्र बनाना यह वास्तव में अच्छा है कैसे 3:03 हम शक्तिशाली तकनीकों का पुन: उपयोग कर सकते हैं 3:05 व्याख्या करते समय इस तरह के नए कार्य 3:07 समस्या अलग तरह से तो अगर हम शुरू करते हैं 3:09 शुरुआत से हमारे पास एक नेरफ मॉडल है 3:12 जैसा कि मैंने पिछले वीडियो में समझाया था यह 3:14 मॉडल का प्रकार भविष्यवाणी करने के लिए चित्र लेता है 3:17 प्रत्येक उपन्यास दृश्य में पिक्सेल a . बनाते हैं 3:20 के छवि जोड़े से सीखकर 3D मॉडल 3:22 भिन्न के साथ एक ही वस्तु 3:24 हमारे मामले में दृष्टिकोण हम शुरू नहीं करते हैं 3:26 छवियों के साथ हम सीधे शुरू करते हैं 3:28 पाठ और नमूना एक यादृच्छिक दृश्य 3:30 अभिविन्यास हम एक छवि उत्पन्न करना चाहते हैं 3:33 मूल रूप से हम एक बनाने की कोशिश कर रहे हैं 3:35 सभी की छवियां बनाकर 3D मॉडल 3:38 संभावित कोण जो एक कैमरा कवर कर सकता है 3:40 वस्तु के चारों ओर देखना और अनुमान लगाना 3:42 पिक्सेल रंग घनत्व प्रकाश 3:45 प्रतिबिंब आदि सब कुछ करने की जरूरत है 3:48 इसे यथार्थवादी बनाएं इस प्रकार हम शुरू करते हैं 3:50 कैप्शन के साथ और इसमें एक छोटा सा ट्वीक जोड़ें 3:52 यह यादृच्छिक कैमरे पर निर्भर करता है 3:54 दृष्टिकोण जिसके लिए हम उत्पन्न करना चाहते हैं 3:56 उदाहरण के लिए हम एक मोर्चा बनाना चाह सकते हैं 3:58 देखें ताकि हम सामने के दृश्य को जोड़ सकें 4:01 दूसरी तरफ कैप्शन हम उपयोग करते हैं 4:03 के लिए एक ही कोण और कैमरा पैरामीटर 4:05 प्रारंभिक प्रशिक्षित Nerf मॉडल नहीं 4:09 पहले प्रतिपादन की भविष्यवाणी करें फिर हम 4:11 हमारे द्वारा निर्देशित एक छवि संस्करण उत्पन्न करें 4:13 जोड़ा गया के साथ कैप्शन और प्रारंभिक प्रतिपादन 4:17 हमारे पूर्व-प्रशिक्षित पाठ की कल्पना का उपयोग करते हुए शोर 4:20 छवि मॉडल के लिए जिसे मैंने आगे समझाया 4:22 मेरी छवि और वीडियो में यदि आप उत्सुक हैं 4:24 यह देखने के लिए कि यह कैसे करता है हमारी छवि और 4:26 मॉडल को टेक्स्ट इनपुट द्वारा निर्देशित किया जाएगा 4:28 साथ ही का वर्तमान प्रतिपादन 4:30 अतिरिक्त शोर के साथ वस्तु यहाँ हम जोड़ते हैं 4:33 शोर क्योंकि यह वही है जो छवि और 4:36 मॉड्यूल इनपुट के रूप में ले सकता है जिसकी उसे आवश्यकता है 4:38 एक शोर वितरण का हिस्सा यह 4:40 समझता है कि हम उत्पन्न करने के लिए मॉडल का उपयोग करते हैं 4:43 एक उच्च गुणवत्ता वाली छवि छवि जोड़ें 4:45 इसे उत्पन्न करने और शोर को दूर करने के लिए उपयोग किया जाता है 4:48 हमने इस परिणाम का उपयोग करने के लिए मैन्युअल रूप से जोड़ा 4:51 के लिए हमारे Nerf मॉडल का मार्गदर्शन और सुधार करें 4:54 अगला कदम हम वह सब बेहतर करने के लिए करते हैं 4:55 समझें कि छवि में कहाँ Nerf 4:57 मॉडल को अपना ध्यान केंद्रित करना चाहिए 4:59 अगले चरण के लिए बेहतर परिणाम दें 5:01 और हम इसे तब तक दोहराते हैं जब तक कि 3D मॉडल नहीं हो जाता 5:05 पर्याप्त संतोषजनक तो आप निर्यात कर सकते हैं 5:07 इस मॉडल को जाल में डालने और इसे एक दृश्य में उपयोग करने के लिए 5:10 अपनी पसंद का और आप में से कुछ के सामने 5:12 पूछो नहीं, आपको फिर से प्रशिक्षित करने की आवश्यकता नहीं है 5:15 छवि जनरेटर मॉडल जैसा कि वे कहते हैं 5:17 कागज में अच्छी तरह से यह सिर्फ एक के रूप में कार्य करता है 5:19 जमे हुए आलोचक जो छवि स्थान की भविष्यवाणी करते हैं 5:21 एडिट्स एंड वॉयरा इस तरह ड्रीम फ्यूजन 5:25 टेक्स्ट इनपुट से 3डी रेंडरिंग जेनरेट करता है 5:28 यदि आप एक गहरा होना चाहते हैं 5:30 दृष्टिकोण की समझ है a 5:32 नसों को ढंकने वाले मेरे वीडियो देखें और 5:34 Imogen मैं भी आपको उनके पढ़ने के लिए आमंत्रित करता हूं 5:36 इस विशिष्ट पर अधिक जानकारी के लिए पेपर 5:39 विधि पूरी देखने के लिए धन्यवाद 5:41 वीडियो और मैं आपको अगले सप्ताह इसके साथ देखूंगा 5:44 एक और अद्भुत पेपर