बड़े भाषा मॉडल।
ये शब्द आपने पहले भी सुने होंगे। वे एक विशिष्ट प्रकार के मशीन लर्निंग-आधारित एल्गोरिदम का प्रतिनिधित्व करते हैं जो भाषा को समझते हैं और उत्पन्न कर सकते हैं, जिसे अक्सर प्राकृतिक भाषा प्रसंस्करण या एनएलपी कहा जाता है।
आपने निश्चित रूप से सबसे प्रसिद्ध और शक्तिशाली भाषा मॉडल के बारे में सुना होगा: । GPT-3, जैसा कि मैंने वीडियो कवरिंग में वर्णित किया है, यह भाषा लेने, इसे समझने और बदले में भाषा उत्पन्न करने में सक्षम है। लेकिन यहां सावधान रहें; यह वास्तव में इसे नहीं समझता है। दरअसल, यह समझ से कोसों दूर है। GPT-3 और अन्य भाषा-आधारित मॉडल केवल उन शब्दों का उपयोग करते हैं जिन्हें हम शब्दों का शब्दकोश कहते हैं, उन्हें संख्याओं के रूप में प्रस्तुत करने के लिए, वाक्य में उनकी स्थिति को याद रखने के लिए, और बस इतना ही। आइए उन शक्तिशाली मशीन लर्निंग मॉडल में गोता लगाएँ और यह समझने की कोशिश करें कि वे शब्दों के बजाय क्या देखते हैं, जिसे शब्द एम्बेडिंग कहा जाता है, और कोहेरे द्वारा प्रदान किए गए उदाहरण के साथ उन्हें कैसे तैयार किया जाए। वीडियो में और जानें...
संदर्भ
►पूरा लेख पढ़ें:
►BERT वर्ड एंबेडिंग ट्यूटोरियल:
►Cohere's Notebook from the code example:
►Cohere Repos एम्बेडिंग पर केंद्रित है:
►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया गया है!):
वीडियो ट्रांसक्रिप्ट
0:07 भाषा मॉडल जो आपने सुने होंगे 0:10 ये शब्द इससे पहले कि वे एक का प्रतिनिधित्व करते हैं 0:13 विशिष्ट प्रकार की मशीन लर्निंग 0:14 एल्गोरिदम जो समझते हैं और कर सकते हैं 0:16 भाषा उत्पन्न करें जिसे अक्सर कहा जाता है 0:19 प्राकृतिक भाषा प्रसंस्करण या एनएलपी 0:22 आपने निश्चित रूप से सबसे प्रसिद्ध के बारे में सुना होगा 0:24 और शक्तिशाली भाषा मॉडल जैसे gpt3 0:26 gpt3 जैसा कि मैंने वीडियो में बताया है 0:28 इसे कवर करना भाषा लेने में सक्षम है 0:30 इसे समझें और इसमें भाषा उत्पन्न करें 0:33 वापसी लेकिन सावधान यहाँ यह नहीं है 0:35 वास्तव में इसे समझें वास्तव में यह बहुत दूर है 0:38 जीबीडी3 और अन्य को समझने से 0:41 भाषा-आधारित मॉडल केवल वही उपयोग करते हैं जो हम करते हैं 0:44 शब्दों के शब्दकोशों का प्रतिनिधित्व करने के लिए कॉल करें 0:46 संख्या के रूप में उन्हें अपनी स्थिति याद रहती है 0:49 वाक्य में और यह एक का उपयोग कर रहा है 0:52 कुछ संख्याएँ और स्थितीय संख्याएँ 0:53 एम्बेडिंग कहा जाता है जो वे कर सकते हैं 0:55 समान वाक्यों को फिर से समूहित करें जो भी 0:58 इसका मतलब है कि वे तरह करने में सक्षम हैं 1:00 वाक्यों की तुलना करके समझें 1:02 हमारे डेटा सेट जैसे ज्ञात वाक्यों के लिए 1:05 यह छवि वाक्य के लिए समान प्रक्रिया है 1:07 मॉडल जो आपके वाक्य को लेते हैं 1:10 एक छवि उत्पन्न करें जो वे वास्तव में नहीं करते हैं 1:11 इसे समझें लेकिन वे इसकी तुलना कर सकते हैं 1:13 इसी तरह की छवियां किसी प्रकार का उत्पादन करती हैं 1:16 अपने में अवधारणाओं की समझ 1:18 इस वीडियो में वाक्य हमारे पास होगा 1:20 देखो क्या है वो शक्तिशाली मशीन 1:22 सीखने के मॉडल शब्दों के बजाय देखते हैं 1:24 शब्द एम्बेडिंग कहा जाता है और कैसे करें 1:27 द्वारा प्रदान किए गए उदाहरण के साथ उन्हें प्रस्तुत करें 1:29 इस वीडियो के प्रायोजक एक महान 1:31 कंपनी एनएलपी क्षेत्र में सहयोग करती है जो मैं 1:35 वीडियो के अंत में बात करेंगे 1:36 क्योंकि उनके पास एक शानदार मंच है 1:39 एनएलपी हमने एम्बेडिंग और के बारे में बात की है 1:42 gpt3 लेकिन दोनों के बीच क्या संबंध है 1:44 उत्सर्जन वे हैं जो मॉडलों द्वारा देखे जाते हैं 1:47 और वे उन शब्दों को कैसे संसाधित करते हैं जिन्हें हम जानते हैं 1:50 और एम्बेडिंग का अच्छी तरह से उपयोग क्यों करें क्योंकि as 1:53 अभी की मशीनें शब्दों को संसाधित नहीं कर सकती हैं और 1:56 उन्हें प्रशिक्षित करने के लिए हमें संख्याओं की आवश्यकता है 1:59 बड़े मॉडल हमारे ध्यान से धन्यवाद 2:01 निर्मित डेटा सेट जिसके लिए हम गणित का उपयोग कर सकते हैं 2:04 एम्बेडिंग के बीच की दूरी को मापें 2:06 और इसके आधार पर अपने नेटवर्क को सही करें 2:08 दूरी पुनरावृत्त रूप से हमारा हो रहा है 2:10 वास्तविक अर्थ के करीब भविष्यवाणियां 2:12 और परिणामों और बैठकों में सुधार करना 2:15 वह भी हैं जो मॉडल को क्लिप पसंद हैं 2:17 स्थिर प्रसार या डाली करते थे 2:19 वाक्यों को समझें और चित्र बनाएं 2:21 यह दोनों छवियों की तुलना करके किया जाता है 2:24 और एक ही एम्बेडिंग स्पेस में टेक्स्ट 2:26 जिसका अर्थ है कि मॉडल नहीं करता है 2:28 पाठ या छवियों को समझें लेकिन यह 2:31 समझ सकते हैं कि क्या कोई छवि समान है 2:33 एक विशिष्ट पाठ या नहीं तो अगर हम पाते हैं 2:36 पर्याप्त छवि कैप्शन जोड़े जिन्हें हम प्रशिक्षित कर सकते हैं 2:38 डाली की तरह एक विशाल और शक्तिशाली मॉडल 2:41 एक वाक्य एम्बेड करें इसे खोजें 2:43 निकटतम छवि क्लोन और इसे उत्पन्न करें 2:46 रिटर्न तो टेक्स्ट के साथ मशीन लर्निंग है 2:48 सभी एम्बेडिंग की तुलना करने के बारे में लेकिन कैसे 2:51 क्या हम उन एम्बेडिंग को प्राप्त करते हैं जो हम उन्हें प्राप्त करते हैं 2:53 खोजने के लिए प्रशिक्षित एक अन्य मॉडल का उपयोग करना 2:56 समान एम्बेडिंग उत्पन्न करने का सबसे अच्छा तरीका 2:58 रखते हुए समान वाक्यों के लिए 3:01 समान शब्दों के अर्थ में अंतर 3:03 एक के लिए एक सीधे का उपयोग करने की तुलना में 3:06 शब्दकोश वाक्य आमतौर पर होते हैं 3:08 विशेष टोकन अंकन के साथ प्रतिनिधित्व किया 3:10 फिर हमारे पाठ की शुरुआत और अंत 3:13 जैसा कि मैंने कहा कि हमारे पास सभी से हमारे पोज़ हैं 3:15 एम्बेडिंग जो स्थिति को इंगित करते हैं 3:17 एक दूसरे के सापेक्ष प्रत्येक शब्द का 3:19 अक्सर साइनसोइडल फ़ंक्शंस I का उपयोग करते हुए 3:22 में इसके बारे में एक महान लेख जुड़ा हुआ है 3:25 विवरण यदि आप और जानना चाहते हैं 3:26 अंत में हमारे पास हमारे शब्द एम्बेडिंग हम हैं 3:29 हमारे सभी शब्दों के विभाजित होने से शुरू करें 3:31 शब्दों की तालिका की तरह एक सरणी में 3:34 अब शुरू करने के लिए अब शब्द नहीं हैं 3:36 वे केवल टोकन या नंबर हैं 3:40 पूरा अंग्रेजी शब्दकोश आप देख सकते हैं 3:42 यहाँ कि अब सभी शब्द हैं 3:44 एक संख्या द्वारा दर्शाया गया है जो इंगित करता है कि कहाँ है 3:46 वे इस प्रकार शब्दकोश में हैं 3:49 बैंक शब्द के लिए भी वही संख्या 3:51 हालांकि उनके अर्थ अलग हैं 3:53 अब हमारे पास जो वाक्य है उसे हमें जोड़ने की आवश्यकता है 3:56 उस पर थोड़ी सी बुद्धिमत्ता लेकिन 3:58 बहुत ज्यादा नहीं यह ए के लिए धन्यवाद किया जाता है 4:00 इस नई सूची को लेने के लिए प्रशिक्षित मॉडल 4:03 नंबर और आगे इसे एनकोड करें 4:05 संख्याओं की एक और सूची जो बेहतर है 4:08 उदाहरण के लिए वाक्य का प्रतिनिधित्व करें 4:10 अब समान एम्बेडिंग नहीं होगी 4:13 दो शब्दों के बैंक के लिए यहाँ यह है 4:15 संभव है क्योंकि मॉडल करता था 4:17 कि बहुत से पर प्रशिक्षित किया गया है 4:19 एनोटेट टेक्स्ट डेटा और सीखा 4:21 आगे समान अर्थ वाले वाक्यों को एनकोड करें 4:24 एक दूसरे और विपरीत वाक्य दूर 4:27 एक दूसरे से इस प्रकार हमारी अनुमति देता है 4:29 एम्बेडिंग हमारे द्वारा कम पक्षपातपूर्ण होने के लिए 4:31 शब्दों का चुनाव फिर प्रारंभिक सरल 4:34 एक के लिए एक शब्द एम्बेडिंग हम शुरू में 4:37 यहाँ वह है जो इमेजिंग का उपयोग करके दिखता है 4:39 जैसे एक बहुत ही कम एनएलपी उदाहरण में 4:42 के बारे में अधिक जानने के लिए नीचे अधिक लिंक हैं 4:44 एम्बेडिंग और इसे स्वयं कैसे कोड करें 4:46 यहां हम कुछ हैकर न्यूज पोस्ट लेंगे 4:49 और पुनः प्राप्त करने के लिए एक मॉडल लेबल बनाएँ 4:51 एक नए इनपुट की सबसे समान पोस्ट 4:53 वाक्य शुरू करने के लिए हमें एक डेटा सेट की आवश्यकता होती है 4:56 इस मामले में यह एक पूर्व-एम्बेडेड सेट है 4:58 3000 हैकर समाचार पोस्ट जो पहले ही हो चुकी हैं 5:01 संख्या में उत्सर्जित किया गया तो हम निर्माण करते हैं 5:04 उन सभी एम्बेडिंग को सहेजने वाली स्मृति 5:07 भविष्य की तुलना हम मूल रूप से सिर्फ 5:09 इन एम्बेडिंग को एक कुशल में सहेजा 5:11 जिस तरह से उदाहरण के लिए एक नई क्वेरी की जाती है 5:13 यहां पूछ रहा हूं कि आपका सबसे गहरा क्या है 5:16 आपके भीतर का जीवन इसे उत्पन्न कर सकता है 5:18 एक ही एम्बेडिंग का उपयोग करके एम्बेडिंग 5:20 नेटवर्क आमतौर पर यह पक्षी या एक संस्करण है 5:23 इसकी और हम दूरी की तुलना करते हैं 5:25 अन्य सभी के लिए एम्बेडिंग स्थान के बीच 5:27 हैकर समाचार हमारे स्मृति नोट में पोस्ट करता है 5:30 यह वास्तव में यहाँ के लिए महत्वपूर्ण है 5:32 चाहे हमेशा एक ही नेटवर्क का उपयोग करें 5:34 अपना डेटा सेट जनरेट करना या क्वेरी करना 5:36 जैसा कि मैंने कहा कि कोई वास्तविक नहीं है 5:38 बुद्धि यहाँ और न ही वह वास्तव में 5:40 शब्दों को समझता है यह अभी किया गया है 5:42 समान वाक्य एम्बेड करने के लिए प्रशिक्षित 5:45 मानव रहित स्थान के पास कुछ भी नहीं 5:47 अधिक अगर आप अपनी सजा एक को भेजते हैं 5:50 एक उत्पन्न करने के लिए अलग नेटवर्क 5:51 एम्बेडिंग और एम्बेडिंग की तुलना करें 5:53 जो आपके पास दूसरे नेटवर्क से थे 5:55 कुछ भी काम नहीं करेगा यह बस जैसा होगा 5:58 अच्छे लोग जो मुझसे बात करने की कोशिश करते हैं 5:59 हिब्रू में ईसीसीवी में पिछले सप्ताह यह सिर्फ 6:02 मेरे दिमाग में एक एम्बेडिंग स्पेस में नहीं था 6:04 हमारे लिए सौभाग्य से समझ सकता है 6:06 मस्तिष्क एक से स्थानांतरित करना सीख सकता है 6:08 जैसा कि मैं कर सकता हूं, दूसरे के लिए स्थान एम्बेड करना 6:11 फ्रेंच और अंग्रेजी लेकिन इसके लिए बहुत कुछ चाहिए 6:13 कार्य और अभ्यास का और यह समान है 6:16 वैसे भी हमारे पास वापस आने वाली मशीनों के लिए 6:18 समस्या हम सबसे समान पा सकते हैं 6:21 पोस्ट जो बहुत अच्छी हैं लेकिन कैसे हो सकती हैं 6:23 हम इसे प्राप्त करते हैं जैसा कि मैंने उल्लेख किया है 6:25 इसमें नेटवर्क जन्म के कारण 6:28 मामला यह समान बनाना सीखता है 6:30 समान वाक्यों से एम्बेडिंग हम कर सकते हैं 6:32 यहां तक कि इसे दो आयामों में भी देखें 6:35 यह वह जगह है जहाँ आप देख सकते हैं कि कैसे दो समान हैं 6:37 अंक आपके समान विषयों का प्रतिनिधित्व करते हैं 6:39 आपके पास एक बार और कई काम कर सकते हैं 6:41 उन एम्बेडिंग को निकालना पसंद है 6:43 शब्दार्थ खोज करने वाले कीवर्ड 6:45 भावना विश्लेषण कर रहे हैं या यहां तक कि 6:47 चित्र बनाना जैसा कि हमने कहा और 6:49 मेरे पास पिछले वीडियो में दिखाया गया है 6:52 उन और सूचीबद्ध को कवर करने वाले बहुत सारे वीडियो 6:55 सीखने के लिए कुछ दिलचस्प नोटबुक्स 6:57 कोहेयर के लिए धन्यवाद एनकोडिंग के साथ खेलते हैं 6:59 टीम अब मुझे थोड़ी बात करने दें 7:02 kohilu क्योंकि वे अत्यधिक प्रासंगिक हैं 7:05 यह वीडियो कुक यहाँ एक प्रदान करता है 7:07 अगर आप काम कर रहे हैं तो आपकी जरूरत की हर चीज 7:09 सुपर सहित एनएलपी क्षेत्र में 7:11 एम्बेडिंग मॉडल का उपयोग करने का सरल तरीका 7:14 आपका आवेदन सचमुच सिर्फ एक के साथ 7:16 एपीआई कॉल के बिना आप टेक्स्ट एम्बेड कर सकते हैं 7:18 एम्बेडिंग के बारे में कुछ भी जानना 7:21 मॉडल काम करता है एपीआई इसे आपके लिए करता है 7:23 यहां की पृष्ठभूमि आप देख सकते हैं 7:25 शब्दार्थ खोज नोटबुक जो उपयोग करता है 7:27 एम्बेडिंग बनाने के लिए कोहेयर एपीआई 7:30 सवालों और सवालों का संग्रह 7:32 बाद में खोज करने के लिए प्रश्न 7:34 इसी तरह के सवाल आप यहां कुक का इस्तेमाल कर रहे हैं 7:37 टेक्स्ट से संबंधित कुछ भी आसानी से कर सकते हैं 7:39 श्रेणीबद्ध करें और व्यवस्थित करें 7:42 बहुत ज्यादा किसी भी पैमाने को आप एकीकृत कर सकते हैं 7:44 बड़े भाषा मॉडल पर प्रशिक्षित 7:46 की कुछ पंक्तियों के साथ अरबों शब्द 7:48 कोड और यह आपके किसी भी पुस्तकालय में काम करता है 7:51 मशीन सीखने के कौशल की भी जरूरत नहीं है 7:53 आरंभ करने के लिए उनके पास सीखना भी है 7:55 संसाधनों की तरह हाल ही के लिए कोहेयर 7:57 ai का कलर प्रोग्राम है जो मुझे बहुत पसंद है 8:00 यह कार्यक्रम एक अविश्वसनीय है 8:01 एनएलपी में उभरती प्रतिभाओं को मौका 8:04 चुने जाने पर दुनिया भर में शोध 8:06 आप उनकी टीम के साथ काम करेंगे 8:08 और बड़े पैमाने पर पहुंच है 8:10 प्रयोगात्मक ढांचा और जुटना 8:12 विशेषज्ञ जो बहुत अच्छे हैं मैं भी 8:15 आपको उनके महान कलह में शामिल होने के लिए आमंत्रित करते हैं 8:17 समुदाय को सरलता से Co Unity I कहा जाता है 8:21 आशा है कि आपने इस वीडियो का आनंद लिया है और करेंगे 8:23 स्वयं के साथ तालमेल बिठाने का प्रयास करें 8:25 नीचे पहला लिंक मुझे यकीन है कि आप करेंगे 8:27 इसका लाभ उठाएं इसके लिए आपका बहुत-बहुत धन्यवाद 8:29 पूरा वीडियो देख रहे हैं और धन्यवाद 8:31 कोई छोड़कर मेरे काम का समर्थन कर रहा है 8:33 टिप्पणी पसंद करें या हमारे प्रायोजकों को आजमाएं 8:36 कि मैं इन वीडियो के लिए सावधानीपूर्वक चयन करता हूं