2,795 रीडिंग

पाठ एंबेडिंग समझाया: एआई शब्दों को कैसे समझता है

द्वारा Louis Bouchard8m2022/12/03

बहुत लंबा; पढ़ने के लिए

बड़े भाषा मॉडल। ये शब्द आपने पहले भी सुने होंगे। वे एक विशिष्ट प्रकार के मशीन लर्निंग-आधारित एल्गोरिदम का प्रतिनिधित्व करते हैं जो भाषा को समझते हैं और उत्पन्न कर सकते हैं, एक क्षेत्र जिसे अक्सर प्राकृतिक भाषा प्रसंस्करण या एनएलपी कहा जाता है। आपने निश्चित रूप से सबसे प्रसिद्ध और शक्तिशाली भाषा मॉडल के बारे में सुना होगा: GPT-3। GPT-3, जैसा कि मैंने वीडियो को कवर करते हुए बताया है कि यह भाषा लेने, इसे समझने और बदले में भाषा उत्पन्न करने में सक्षम है। लेकिन यहां सावधान रहें; यह वास्तव में इसे नहीं समझता है। वास्तव में, यह समझ से कोसों दूर है। GPT-3 और अन्य भाषा-आधारित मॉडल केवल उन शब्दों का उपयोग करते हैं जिन्हें हम शब्दों के शब्दकोश कहते हैं, उन्हें संख्याओं के रूप में प्रस्तुत करने के लिए, वाक्य में उनकी स्थिति को याद रखें, और बस इतना ही। आइए उन शक्तिशाली मशीन लर्निंग मॉडल में गोता लगाएँ और यह समझने की कोशिश करें कि वे शब्दों के बजाय क्या देखते हैं, जिसे शब्द एम्बेडिंग कहा जाता है, और कोहेरे द्वारा प्रदान किए गए उदाहरण के साथ उन्हें कैसे तैयार किया जाए।

featured image - पाठ एंबेडिंग समझाया: एआई शब्दों को कैसे समझता है

बड़े भाषा मॉडल।

ये शब्द आपने पहले भी सुने होंगे। वे एक विशिष्ट प्रकार के मशीन लर्निंग-आधारित एल्गोरिदम का प्रतिनिधित्व करते हैं जो भाषा को समझते हैं और उत्पन्न कर सकते हैं, जिसे अक्सर प्राकृतिक भाषा प्रसंस्करण या एनएलपी कहा जाता है।

आपने निश्चित रूप से सबसे प्रसिद्ध और शक्तिशाली भाषा मॉडल के बारे में सुना होगा: । GPT-3, जैसा कि मैंने वीडियो कवरिंग में वर्णित किया है, यह भाषा लेने, इसे समझने और बदले में भाषा उत्पन्न करने में सक्षम है। लेकिन यहां सावधान रहें; यह वास्तव में इसे नहीं समझता है। दरअसल, यह समझ से कोसों दूर है। GPT-3 और अन्य भाषा-आधारित मॉडल केवल उन शब्दों का उपयोग करते हैं जिन्हें हम शब्दों का शब्दकोश कहते हैं, उन्हें संख्याओं के रूप में प्रस्तुत करने के लिए, वाक्य में उनकी स्थिति को याद रखने के लिए, और बस इतना ही। आइए उन शक्तिशाली मशीन लर्निंग मॉडल में गोता लगाएँ और यह समझने की कोशिश करें कि वे शब्दों के बजाय क्या देखते हैं, जिसे शब्द एम्बेडिंग कहा जाता है, और कोहेरे द्वारा प्रदान किए गए उदाहरण के साथ उन्हें कैसे तैयार किया जाए। वीडियो में और जानें...

संदर्भ

►पूरा लेख पढ़ें:
►BERT वर्ड एंबेडिंग ट्यूटोरियल:
►Cohere's Notebook from the code example:
►Cohere Repos एम्बेडिंग पर केंद्रित है:
►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया गया है!):

वीडियो ट्रांसक्रिप्ट

0:07 भाषा मॉडल जो आपने सुने होंगे 0:10 ये शब्द इससे पहले कि वे एक का प्रतिनिधित्व करते हैं 0:13 विशिष्ट प्रकार की मशीन लर्निंग 0:14 एल्गोरिदम जो समझते हैं और कर सकते हैं 0:16 भाषा उत्पन्न करें जिसे अक्सर कहा जाता है 0:19 प्राकृतिक भाषा प्रसंस्करण या एनएलपी 0:22 आपने निश्चित रूप से सबसे प्रसिद्ध के बारे में सुना होगा 0:24 और शक्तिशाली भाषा मॉडल जैसे gpt3 0:26 gpt3 जैसा कि मैंने वीडियो में बताया है 0:28 इसे कवर करना भाषा लेने में सक्षम है 0:30 इसे समझें और इसमें भाषा उत्पन्न करें 0:33 वापसी लेकिन सावधान यहाँ यह नहीं है 0:35 वास्तव में इसे समझें वास्तव में यह बहुत दूर है 0:38 जीबीडी3 और अन्य को समझने से 0:41 भाषा-आधारित मॉडल केवल वही उपयोग करते हैं जो हम करते हैं 0:44 शब्दों के शब्दकोशों का प्रतिनिधित्व करने के लिए कॉल करें 0:46 संख्या के रूप में उन्हें अपनी स्थिति याद रहती है 0:49 वाक्य में और यह एक का उपयोग कर रहा है 0:52 कुछ संख्याएँ और स्थितीय संख्याएँ 0:53 एम्बेडिंग कहा जाता है जो वे कर सकते हैं 0:55 समान वाक्यों को फिर से समूहित करें जो भी 0:58 इसका मतलब है कि वे तरह करने में सक्षम हैं 1:00 वाक्यों की तुलना करके समझें 1:02 हमारे डेटा सेट जैसे ज्ञात वाक्यों के लिए 1:05 यह छवि वाक्य के लिए समान प्रक्रिया है 1:07 मॉडल जो आपके वाक्य को लेते हैं 1:10 एक छवि उत्पन्न करें जो वे वास्तव में नहीं करते हैं 1:11 इसे समझें लेकिन वे इसकी तुलना कर सकते हैं 1:13 इसी तरह की छवियां किसी प्रकार का उत्पादन करती हैं 1:16 अपने में अवधारणाओं की समझ 1:18 इस वीडियो में वाक्य हमारे पास होगा 1:20 देखो क्या है वो शक्तिशाली मशीन 1:22 सीखने के मॉडल शब्दों के बजाय देखते हैं 1:24 शब्द एम्बेडिंग कहा जाता है और कैसे करें 1:27 द्वारा प्रदान किए गए उदाहरण के साथ उन्हें प्रस्तुत करें 1:29 इस वीडियो के प्रायोजक एक महान 1:31 कंपनी एनएलपी क्षेत्र में सहयोग करती है जो मैं 1:35 वीडियो के अंत में बात करेंगे 1:36 क्योंकि उनके पास एक शानदार मंच है 1:39 एनएलपी हमने एम्बेडिंग और के बारे में बात की है 1:42 gpt3 लेकिन दोनों के बीच क्या संबंध है 1:44 उत्सर्जन वे हैं जो मॉडलों द्वारा देखे जाते हैं 1:47 और वे उन शब्दों को कैसे संसाधित करते हैं जिन्हें हम जानते हैं 1:50 और एम्बेडिंग का अच्छी तरह से उपयोग क्यों करें क्योंकि as 1:53 अभी की मशीनें शब्दों को संसाधित नहीं कर सकती हैं और 1:56 उन्हें प्रशिक्षित करने के लिए हमें संख्याओं की आवश्यकता है 1:59 बड़े मॉडल हमारे ध्यान से धन्यवाद 2:01 निर्मित डेटा सेट जिसके लिए हम गणित का उपयोग कर सकते हैं 2:04 एम्बेडिंग के बीच की दूरी को मापें 2:06 और इसके आधार पर अपने नेटवर्क को सही करें 2:08 दूरी पुनरावृत्त रूप से हमारा हो रहा है 2:10 वास्तविक अर्थ के करीब भविष्यवाणियां 2:12 और परिणामों और बैठकों में सुधार करना 2:15 वह भी हैं जो मॉडल को क्लिप पसंद हैं 2:17 स्थिर प्रसार या डाली करते थे 2:19 वाक्यों को समझें और चित्र बनाएं 2:21 यह दोनों छवियों की तुलना करके किया जाता है 2:24 और एक ही एम्बेडिंग स्पेस में टेक्स्ट 2:26 जिसका अर्थ है कि मॉडल नहीं करता है 2:28 पाठ या छवियों को समझें लेकिन यह 2:31 समझ सकते हैं कि क्या कोई छवि समान है 2:33 एक विशिष्ट पाठ या नहीं तो अगर हम पाते हैं 2:36 पर्याप्त छवि कैप्शन जोड़े जिन्हें हम प्रशिक्षित कर सकते हैं 2:38 डाली की तरह एक विशाल और शक्तिशाली मॉडल 2:41 एक वाक्य एम्बेड करें इसे खोजें 2:43 निकटतम छवि क्लोन और इसे उत्पन्न करें 2:46 रिटर्न तो टेक्स्ट के साथ मशीन लर्निंग है 2:48 सभी एम्बेडिंग की तुलना करने के बारे में लेकिन कैसे 2:51 क्या हम उन एम्बेडिंग को प्राप्त करते हैं जो हम उन्हें प्राप्त करते हैं 2:53 खोजने के लिए प्रशिक्षित एक अन्य मॉडल का उपयोग करना 2:56 समान एम्बेडिंग उत्पन्न करने का सबसे अच्छा तरीका 2:58 रखते हुए समान वाक्यों के लिए 3:01 समान शब्दों के अर्थ में अंतर 3:03 एक के लिए एक सीधे का उपयोग करने की तुलना में 3:06 शब्दकोश वाक्य आमतौर पर होते हैं 3:08 विशेष टोकन अंकन के साथ प्रतिनिधित्व किया 3:10 फिर हमारे पाठ की शुरुआत और अंत 3:13 जैसा कि मैंने कहा कि हमारे पास सभी से हमारे पोज़ हैं 3:15 एम्बेडिंग जो स्थिति को इंगित करते हैं 3:17 एक दूसरे के सापेक्ष प्रत्येक शब्द का 3:19 अक्सर साइनसोइडल फ़ंक्शंस I का उपयोग करते हुए 3:22 में इसके बारे में एक महान लेख जुड़ा हुआ है 3:25 विवरण यदि आप और जानना चाहते हैं 3:26 अंत में हमारे पास हमारे शब्द एम्बेडिंग हम हैं 3:29 हमारे सभी शब्दों के विभाजित होने से शुरू करें 3:31 शब्दों की तालिका की तरह एक सरणी में 3:34 अब शुरू करने के लिए अब शब्द नहीं हैं 3:36 वे केवल टोकन या नंबर हैं 3:40 पूरा अंग्रेजी शब्दकोश आप देख सकते हैं 3:42 यहाँ कि अब सभी शब्द हैं 3:44 एक संख्या द्वारा दर्शाया गया है जो इंगित करता है कि कहाँ है 3:46 वे इस प्रकार शब्दकोश में हैं 3:49 बैंक शब्द के लिए भी वही संख्या 3:51 हालांकि उनके अर्थ अलग हैं 3:53 अब हमारे पास जो वाक्य है उसे हमें जोड़ने की आवश्यकता है 3:56 उस पर थोड़ी सी बुद्धिमत्ता लेकिन 3:58 बहुत ज्यादा नहीं यह ए के लिए धन्यवाद किया जाता है 4:00 इस नई सूची को लेने के लिए प्रशिक्षित मॉडल 4:03 नंबर और आगे इसे एनकोड करें 4:05 संख्याओं की एक और सूची जो बेहतर है 4:08 उदाहरण के लिए वाक्य का प्रतिनिधित्व करें 4:10 अब समान एम्बेडिंग नहीं होगी 4:13 दो शब्दों के बैंक के लिए यहाँ यह है 4:15 संभव है क्योंकि मॉडल करता था 4:17 कि बहुत से पर प्रशिक्षित किया गया है 4:19 एनोटेट टेक्स्ट डेटा और सीखा 4:21 आगे समान अर्थ वाले वाक्यों को एनकोड करें 4:24 एक दूसरे और विपरीत वाक्य दूर 4:27 एक दूसरे से इस प्रकार हमारी अनुमति देता है 4:29 एम्बेडिंग हमारे द्वारा कम पक्षपातपूर्ण होने के लिए 4:31 शब्दों का चुनाव फिर प्रारंभिक सरल 4:34 एक के लिए एक शब्द एम्बेडिंग हम शुरू में 4:37 यहाँ वह है जो इमेजिंग का उपयोग करके दिखता है 4:39 जैसे एक बहुत ही कम एनएलपी उदाहरण में 4:42 के बारे में अधिक जानने के लिए नीचे अधिक लिंक हैं 4:44 एम्बेडिंग और इसे स्वयं कैसे कोड करें 4:46 यहां हम कुछ हैकर न्यूज पोस्ट लेंगे 4:49 और पुनः प्राप्त करने के लिए एक मॉडल लेबल बनाएँ 4:51 एक नए इनपुट की सबसे समान पोस्ट 4:53 वाक्य शुरू करने के लिए हमें एक डेटा सेट की आवश्यकता होती है 4:56 इस मामले में यह एक पूर्व-एम्बेडेड सेट है 4:58 3000 हैकर समाचार पोस्ट जो पहले ही हो चुकी हैं 5:01 संख्या में उत्सर्जित किया गया तो हम निर्माण करते हैं 5:04 उन सभी एम्बेडिंग को सहेजने वाली स्मृति 5:07 भविष्य की तुलना हम मूल रूप से सिर्फ 5:09 इन एम्बेडिंग को एक कुशल में सहेजा 5:11 जिस तरह से उदाहरण के लिए एक नई क्वेरी की जाती है 5:13 यहां पूछ रहा हूं कि आपका सबसे गहरा क्या है 5:16 आपके भीतर का जीवन इसे उत्पन्न कर सकता है 5:18 एक ही एम्बेडिंग का उपयोग करके एम्बेडिंग 5:20 नेटवर्क आमतौर पर यह पक्षी या एक संस्करण है 5:23 इसकी और हम दूरी की तुलना करते हैं 5:25 अन्य सभी के लिए एम्बेडिंग स्थान के बीच 5:27 हैकर समाचार हमारे स्मृति नोट में पोस्ट करता है 5:30 यह वास्तव में यहाँ के लिए महत्वपूर्ण है 5:32 चाहे हमेशा एक ही नेटवर्क का उपयोग करें 5:34 अपना डेटा सेट जनरेट करना या क्वेरी करना 5:36 जैसा कि मैंने कहा कि कोई वास्तविक नहीं है 5:38 बुद्धि यहाँ और न ही वह वास्तव में 5:40 शब्दों को समझता है यह अभी किया गया है 5:42 समान वाक्य एम्बेड करने के लिए प्रशिक्षित 5:45 मानव रहित स्थान के पास कुछ भी नहीं 5:47 अधिक अगर आप अपनी सजा एक को भेजते हैं 5:50 एक उत्पन्न करने के लिए अलग नेटवर्क 5:51 एम्बेडिंग और एम्बेडिंग की तुलना करें 5:53 जो आपके पास दूसरे नेटवर्क से थे 5:55 कुछ भी काम नहीं करेगा यह बस जैसा होगा 5:58 अच्छे लोग जो मुझसे बात करने की कोशिश करते हैं 5:59 हिब्रू में ईसीसीवी में पिछले सप्ताह यह सिर्फ 6:02 मेरे दिमाग में एक एम्बेडिंग स्पेस में नहीं था 6:04 हमारे लिए सौभाग्य से समझ सकता है 6:06 मस्तिष्क एक से स्थानांतरित करना सीख सकता है 6:08 जैसा कि मैं कर सकता हूं, दूसरे के लिए स्थान एम्बेड करना 6:11 फ्रेंच और अंग्रेजी लेकिन इसके लिए बहुत कुछ चाहिए 6:13 कार्य और अभ्यास का और यह समान है 6:16 वैसे भी हमारे पास वापस आने वाली मशीनों के लिए 6:18 समस्या हम सबसे समान पा सकते हैं 6:21 पोस्ट जो बहुत अच्छी हैं लेकिन कैसे हो सकती हैं 6:23 हम इसे प्राप्त करते हैं जैसा कि मैंने उल्लेख किया है 6:25 इसमें नेटवर्क जन्म के कारण 6:28 मामला यह समान बनाना सीखता है 6:30 समान वाक्यों से एम्बेडिंग हम कर सकते हैं 6:32 यहां तक कि इसे दो आयामों में भी देखें 6:35 यह वह जगह है जहाँ आप देख सकते हैं कि कैसे दो समान हैं 6:37 अंक आपके समान विषयों का प्रतिनिधित्व करते हैं 6:39 आपके पास एक बार और कई काम कर सकते हैं 6:41 उन एम्बेडिंग को निकालना पसंद है 6:43 शब्दार्थ खोज करने वाले कीवर्ड 6:45 भावना विश्लेषण कर रहे हैं या यहां तक कि 6:47 चित्र बनाना जैसा कि हमने कहा और 6:49 मेरे पास पिछले वीडियो में दिखाया गया है 6:52 उन और सूचीबद्ध को कवर करने वाले बहुत सारे वीडियो 6:55 सीखने के लिए कुछ दिलचस्प नोटबुक्स 6:57 कोहेयर के लिए धन्यवाद एनकोडिंग के साथ खेलते हैं 6:59 टीम अब मुझे थोड़ी बात करने दें 7:02 kohilu क्योंकि वे अत्यधिक प्रासंगिक हैं 7:05 यह वीडियो कुक यहाँ एक प्रदान करता है 7:07 अगर आप काम कर रहे हैं तो आपकी जरूरत की हर चीज 7:09 सुपर सहित एनएलपी क्षेत्र में 7:11 एम्बेडिंग मॉडल का उपयोग करने का सरल तरीका 7:14 आपका आवेदन सचमुच सिर्फ एक के साथ 7:16 एपीआई कॉल के बिना आप टेक्स्ट एम्बेड कर सकते हैं 7:18 एम्बेडिंग के बारे में कुछ भी जानना 7:21 मॉडल काम करता है एपीआई इसे आपके लिए करता है 7:23 यहां की पृष्ठभूमि आप देख सकते हैं 7:25 शब्दार्थ खोज नोटबुक जो उपयोग करता है 7:27 एम्बेडिंग बनाने के लिए कोहेयर एपीआई 7:30 सवालों और सवालों का संग्रह 7:32 बाद में खोज करने के लिए प्रश्न 7:34 इसी तरह के सवाल आप यहां कुक का इस्तेमाल कर रहे हैं 7:37 टेक्स्ट से संबंधित कुछ भी आसानी से कर सकते हैं 7:39 श्रेणीबद्ध करें और व्यवस्थित करें 7:42 बहुत ज्यादा किसी भी पैमाने को आप एकीकृत कर सकते हैं 7:44 बड़े भाषा मॉडल पर प्रशिक्षित 7:46 की कुछ पंक्तियों के साथ अरबों शब्द 7:48 कोड और यह आपके किसी भी पुस्तकालय में काम करता है 7:51 मशीन सीखने के कौशल की भी जरूरत नहीं है 7:53 आरंभ करने के लिए उनके पास सीखना भी है 7:55 संसाधनों की तरह हाल ही के लिए कोहेयर 7:57 ai का कलर प्रोग्राम है जो मुझे बहुत पसंद है 8:00 यह कार्यक्रम एक अविश्वसनीय है 8:01 एनएलपी में उभरती प्रतिभाओं को मौका 8:04 चुने जाने पर दुनिया भर में शोध 8:06 आप उनकी टीम के साथ काम करेंगे 8:08 और बड़े पैमाने पर पहुंच है 8:10 प्रयोगात्मक ढांचा और जुटना 8:12 विशेषज्ञ जो बहुत अच्छे हैं मैं भी 8:15 आपको उनके महान कलह में शामिल होने के लिए आमंत्रित करते हैं 8:17 समुदाय को सरलता से Co Unity I कहा जाता है 8:21 आशा है कि आपने इस वीडियो का आनंद लिया है और करेंगे 8:23 स्वयं के साथ तालमेल बिठाने का प्रयास करें 8:25 नीचे पहला लिंक मुझे यकीन है कि आप करेंगे 8:27 इसका लाभ उठाएं इसके लिए आपका बहुत-बहुत धन्यवाद 8:29 पूरा वीडियो देख रहे हैं और धन्यवाद 8:31 कोई छोड़कर मेरे काम का समर्थन कर रहा है 8:33 टिप्पणी पसंद करें या हमारे प्रायोजकों को आजमाएं 8:36 कि मैं इन वीडियो के लिए सावधानीपूर्वक चयन करता हूं

L O A D I N G
. . . comments & more!