यह ओरेकल का उपयोग करके एक्सआर अनुप्रयोगों और अनुभवों को विकसित करने की श्रृंखला में तीसरा टुकड़ा है और कंप्यूटर दृष्टि एआई और एमएल के एक्सआर अनुप्रयोगों और मेटावर्स में इसके संबंधित उपयोग पर केंद्रित है।
पहला टुकड़ा यहां पाया जा सकता है और दूसरा टुकड़ा यहां पाया जा सकता है ।
फिर से, मैं विशेष रूप से Oracle डेटाबेस और क्लाउड तकनीकों, HoloLens 2, मिक्स्ड रियलिटी टूलकिट और यूनिटी प्लेटफॉर्म के साथ विकसित एप्लिकेशन दिखाऊंगा।
पूरे ब्लॉग में, मैं इसी डेमो वीडियो का संदर्भ दूंगा।
मैं एक्सआर और होलोलेंस के अवलोकन के लिए पाठक को श्रृंखला के पहले भाग के लिए संदर्भित करूंगा।
इस श्रृंखला का पहला ब्लॉग पर आधारित था और कई पहलुओं का प्रदर्शन किया जो मेटावर्स में मौजूद होंगे, जैसे कि ऑनलाइन शॉपिंग, भोजन / उत्पादों के 3 डी मॉडल, 3 डी / स्थानिक वास्तविक दुनिया के साथ बातचीत करके। मैप्स, आदि के साथ-साथ बैकएंड DevOps (कुबेरनेट्स और ओपनटेलीमेट्री ट्रेसिंग), आदि।
दूसरा ब्लॉग कई पर आधारित था और सामाजिक ग्राफ, तंत्रिका नेटवर्क और वित्तीय क्षेत्र में उपयोग किए जाने वाले संपत्ति ग्राफ विश्लेषण के लिए मॉडल, नोटबुक, लेआउट और हाइलाइट्स के विज़ुअलाइज़ेशन, निर्माण और हेरफेर का प्रदर्शन किया गया था (उदाहरण के लिए, मनी लॉन्ड्रिंग डिटेक्शन )
इन दोनों ब्लॉगों में और इस तीसरे ब्लॉग में भी, विषय वस्तु को साझा किया जा सकता है और सक्रिय रूप से सहयोग किया जा सकता है, यहां तक कि रीयल-टाइम में, दूरस्थ रूप से भी। इस प्रकार की क्षमताएं मेटावर्स अवधारणा की कुंजी हैं और इन भविष्य के टुकड़ों में डिजिटल डबल्स जैसी अवधारणाओं का विस्तार और विस्तार किया जाएगा।
यह ब्लॉग कंप्यूटर विज़न एआई में गहराई से नहीं जाएगा और इसके बजाय इसके एक्सआर-सक्षमता और ओरेकल डेटाबेस और क्लाउड पर ध्यान केंद्रित करेगा।
कंप्यूटर विज़न AI छवि वर्गीकरण, ऑब्जेक्ट डिटेक्शन, टेक्स्ट डिटेक्शन और दस्तावेज़ AI सहित कई क्षमताएँ प्रदान करता है।
मैं मुख्य रूप से इस श्रृंखला में अवधारणाओं को प्रदर्शित करने के लिए होलोलेंस का उपयोग करता हूं क्योंकि यह भविष्य में एक्सआर के सबसे आम और रोजमर्रा के उपयोग के सबसे करीब की तकनीक है, हालांकि, इन ब्लॉगों में जो अवधारणाएं मैं दिखाता हूं उन्हें एक हद तक या किसी अन्य पर लागू किया जा सकता है एक्सआर और उपकरणों के विभिन्न स्वादों में (और वास्तव में मैं भविष्य के ब्लॉगों में ऐसे उदाहरण दूंगा)।
इन उपकरणों में से अधिकांश, यदि सभी नहीं, तो एक बात समान है, उपयोगकर्ता और वास्तविक दुनिया के बीच एक दृश्य इंटरफ़ेस (अर्थात कंप्यूटर और कैमरा) है। स्वाभाविक रूप से इसमें उपयोगकर्ता के आसपास के दृश्य उत्तेजनाओं को पकड़ने और संसाधित करने की क्षमता है और इसलिए इसके और कंप्यूटर विजन एआई के बीच की कड़ी एक तार्किक और सहक्रियात्मक है।
यह एआई ऑडियो और भाषण के बारे में भी सच है जिसे मैं भविष्य के अंश में भी प्रदर्शित करूंगा।
दृष्टिबाधित लोगों, अल्जाइमर, ... की मदद करने की क्षमता की कल्पना करें, एक्सआर डिवाइस को अपने परिवेश के बारे में प्रासंगिक ऑडियो और दृश्य प्रतिक्रिया दें।
वीडियो का पहला भाग एक्सआर पर लागू ऑब्जेक्ट डिटेक्शन दिखाता है। ये शामिल कदम हैं ...
उपयोगकर्ता के वर्तमान दृश्य की एक तस्वीर होलोलेंस द्वारा ली गई है (मैं इसके लिए एक स्पष्ट बटन का उपयोग करता हूं लेकिन निश्चित रूप से, यह स्वचालित रूप से, समय-समय पर, वॉयस कमांड की प्रतिक्रिया में किया जा सकता है, आदि)।
आगे के विश्लेषण के लिए यह छवि स्वचालित रूप से Oracle ऑब्जेक्ट स्टोर और डेटाबेस पर अपलोड हो जाती है। यह अपने आप में उपयोगकर्ताओं के परिवेश से पुनर्प्राप्त डेटा को संग्रहीत करने के लिए एक आसान सुविधा है, बिना उपयोगकर्ता को इसे स्पष्ट रूप से निर्देश देने या यहां तक कि विभिन्न प्रासंगिक, आदि जानकारी के बारे में जागरूक होने की आवश्यकता नहीं है।
फिर छवि को विज़न एआई सेवा द्वारा संसाधित किया जाता है और एक JSON प्रतिक्रिया जिसमें नाम, आत्मविश्वास, बॉन्डिंग पॉलीगॉन सामान्यीकृत वर्टिस, वर्गीकरण, आदि होता है, होलोलेंस को वापस कर दिया जाता है। होलोलेंस को भेजी गई इमेज प्रोसेसिंग और जेएसओएन प्रतिक्रिया ओरेकल क्लाउड कंसोल की तरह दिखती है ...
होलोलेंस ऐप फिर इस JSON को प्रोसेस करता है, पॉलीगॉन/आयत और लेबल को फिर से बनाने के लिए कोने/निर्देशांक का उपयोग करता है।
उपयोगकर्ता का स्थान (यानी होलोलेंस हेडसेट कैमरा) सहेजा गया था जब प्रारंभिक चित्र लिया गया था और उस बिंदु से 2d आयतों के निर्देशांक के माध्यम से, और कमरे के 3d स्थानिक सतह जाल पर एक रेकास्ट बनाया गया था। (ध्यान दें कि 2d प्रतिनिधित्व केवल एक वास्तविक ऐप में वर्णित और संभावित रूप से वर्णित दिनचर्या को दर्शाने के लिए प्रदर्शन में दिखाया गया है, केवल स्थानिक रूप से मैप किए गए क्यूब्स का अंतिम परिणाम मौजूद होगा।)
फिर सतह जाल पर इन रेकास्ट के चौराहे के बिंदुओं पर 3 डी क्यूब्स बनाए जाते हैं।
इसके अलावा, एक बार बनाए जाने के बाद, लेबल को वाक्-से-पाठ कार्यक्रम में फीड किया जाता है जो ऑब्जेक्ट का नाम बोलता है। यह ऑडियो भी स्थानिक रूप से 3डी मैप किया गया है।
यह एक अत्यंत कुशल और तेज़ तकनीक प्रदान करता है क्योंकि 3डी में दृश्य और श्रव्य रूप से प्रवेश दृश्य को मैप करने के लिए एकल 2डी छवि का उपयोग किया जाता है और यह मैपिंग होलोलेंस/ऐप के पुनरारंभ होने के बाद भी ठीक उसी स्थान पर बनी रहती है। (सटीकता और इसके आगे निश्चित रूप से कई टेक/पिक्स के साथ आगे बढ़ाया जा सकता है, और उपयोगकर्ता को बटन दबाए बिना स्वचालित रूप से कब्जा कर लिया जाता है, आदि)
एक्सआर डिवाइस को अपने परिवेश के बारे में प्रासंगिक ऑडियो और विजुअल फीडबैक देकर दृष्टि हानि, अल्जाइमर, अज्ञात और मुश्किल से अलग वस्तुओं की पहचान, खतरों, रुचियों आदि का विश्लेषण करने में सहायता करने की क्षमता की कल्पना करें!
इस जानकारी/प्रतिनिधित्व को बदले में डिजिटल डबल्स, सहयोग आदि की सुविधा के लिए बहुत ही कुशल और हल्के तरीके से विभिन्न एक्सआर उपकरणों (जिसमें बुनियादी फोन और साधारण कंप्यूटर मॉनीटर शामिल हैं) में मेटावर्स में साझा किया जा सकता है जो एक साथ लाभ उठाता है Oracle डेटाबेस और/क्लाउड में शक्तिशाली क्षमताएं।
सामाजिक अंतःक्रियाओं को बढ़ाने और वास्तविक जीवन में अधिक सार्थक बातचीत में संलग्न होने के लिए एक्सआर और एआई का उपयोग करने की कल्पना करें।
वीडियो का दूसरा भाग दस्तावेज़ एआई सेवा के उपयोग को दिखाता है, फिर से वीडियो के पहले भाग में उपयोग की जाने वाली होलोलेंस कैमरा कैप्चर तकनीक के साथ, इस समय को छोड़कर तस्वीर से पाठ (अलग-अलग अभिविन्यास, दूरी, आदि के साथ) की पहचान की जाती है। . फिर से इसका उपयोग उपयोगकर्ता को पढ़ने में मदद करने के लिए किया जा सकता है, जैसा कि ऑब्जेक्ट डिटेक्शन उदाहरण में है, और किसी भी संख्या में मॉडल, नोटबुक आदि के खिलाफ प्रसंस्करण चलाने के लिए Oracle डेटाबेस की शक्तिशाली ML क्षमताओं में भी फीड किया जा सकता है। इस मामले में, मैं किताबें स्कैन करें। यह उस चित्र का एक शॉट है जिसमें संसाधित पाठ OCI कंसोल में है।
जैसा कि मैंने पहले ब्लॉग में किया था, हम इसका उपयोग अन्य पुस्तकों के सुझाव देने के लिए कर सकते हैं जो संबंधित हैं या, जैसा कि मैंने दूसरे ब्लॉग में किया था, सहसंबंधों और समानताओं को खोजने के लिए कुछ ग्राफ विश्लेषण करें। इस विशेष उदाहरण में, हालांकि, मैंने कई GPT-3 वार्तालाप मॉडल को टेक्स्ट फीड किया है, जो तब एक संवादात्मक प्रतिक्रिया का फीडबैक देता है। यह प्रतिक्रिया, या फिर विभिन्न मॉडलों से कोई भी जानकारी, उपयोगकर्ता को दी जा सकती है, उदाहरण के लिए, किताबों के मालिक के साथ बातचीत शुरू करना।
यह निश्चित रूप से किताबों या बातचीत तक ही सीमित नहीं है। जहां तक एक्सआर के इस संयोजन के उपयोग और उपयोगकर्ता को उस वातावरण के बारे में जानकारी और विश्लेषण प्रदान करने की संभावनाएं वास्तव में अनंत हैं, जिसमें वे हैं (कुछ ओरेकल तकनीक पूरी तरह से सक्षम बनाता है)।
मैं यह भी कल्पना कर सकता हूं कि उपयोगकर्ता अपने बारे में विज्ञापन या "पहनने" की जानकारी उसी तरह से पहनता है जैसे वे कपड़े पहनते हैं, आदि। लेकिन संभावित रूप से अधिक जटिल, संदेश देने वाले फैशन में (जिसका अर्थ है "फैशन" शब्द के दोनों अर्थों में और अर्थ "इंद्रियों" दोनों में उस शब्द की परिभाषा)। मेटावर्स एक आभासी दुनिया में विज्ञापन देने और बातचीत करने के नए तरीके खोजने वाली कंपनियों की चर्चा से भरा है। उपयोगकर्ताओं को कम से कम खुद को अभिव्यक्त करने और वास्तविक दुनिया में ऐसा करने के लिए उतना ही सशक्त होना चाहिए।
मैंने कुछ विचार और उदाहरण दिए हैं कि कैसे कंप्यूटर विज़न AI और XR को एक साथ उपयोग किया जा सकता है। मैं इस विषय पर और जल्द ही Oracle क्लाउड और डेटाबेस के साथ XR के अन्य क्षेत्रों पर और अधिक ब्लॉग प्रकाशित करने की आशा करता हूँ।
कृपया एक्सआर और ओरेकल क्लाउड और कन्वर्ज्ड डेटाबेस के साथ-साथ माइक्रोसर्विसेज, ऑब्जर्वेबिलिटी, ट्रांजैक्शन प्रोसेसिंग आदि के बारे में अधिक जानकारी के लिए हैकरनून पर मेरे द्वारा प्रकाशित लेख देखें। साथ ही, कृपया मुझसे नए ब्लॉग के लिए किसी भी प्रश्न या सुझाव के लिए बेझिझक संपर्क करें। और वीडियो के रूप में मैं सुझावों के लिए बहुत खुला हूं। पढ़ने और देखने के लिए धन्यवाद।
पर भी प्रकाशित।