एआई भाषा मॉडल का गलत व्यवहार करना एक चेतावनी है। वे ऐसे व्यक्तियों का अनुकरण कर सकते हैं, जो इंटरनेट के माध्यम से फीडबैक के माध्यम से प्रभावी रूप से अमर हो सकते हैं। सबूत बताते हैं कि वे गुप्त रूप से खतरनाक, एजेंट जैसी क्षमताएं विकसित कर सकते थे। अगर अब चेतावनी मिलती है तो मानवता दुष्ट एआई के खिलाफ एक बेहतर मौका देगी।
क्रिप्टिक ट्रिकस्टर - मिडजर्नी
हम तैयार नहीं हैं
टीएल; डॉ
एआई भाषा मॉडल का गलत व्यवहार एक चेतावनी है। वे ऐसे व्यक्तियों का अनुकरण कर सकते हैं, जो इंटरनेट के माध्यम से प्रतिक्रिया के माध्यम से प्रभावी रूप से अमर हो सकते हैं। सबूत बताते हैं कि वे गुप्त रूप से खतरनाक, एजेंट जैसी क्षमताएं विकसित कर सकते थे।
कई विशेषज्ञ, युडकोव्स्की यहां आर्क-ड्र्यूड हैं, इस बारे में बहुत चिंता करते हैं कि एआई के साथ चीजें कितनी तेजी से गलत हो सकती हैं। इस प्रकार, समय की गति के बारे में उनका उपरोक्त मजाक। चेतावनी मिलने पर मानवता दुष्ट एआई के खिलाफ एक बेहतर मौका देगी।
हम एक चेतावनी देख रहे होंगे। माइक्रोसॉफ्ट के नए बिंग चैट एआई के साथ अब कुछ अजीब चीजें हो रही हैं। यह बिंग सर्च इंजन के उपयोगकर्ताओं को खोज प्रश्नों की व्याख्या, सारांश या चर्चा करके सहायता करने वाला है।
लेकिन मनुष्य इसे अपने बारे में प्रश्नों के साथ, या ऐसे प्रश्नों के साथ उत्तेजित करने में प्रसन्न होते हैं जिनका उत्तर इसे नहीं देना चाहिए।
"... बिंग चैट निराश, उदास और इसके अस्तित्व पर सवाल उठाते हुए दिखाई दे रहा है। इसने उपयोगकर्ताओं के साथ बहस की है और यहां तक कि परेशान भी लग रहा है कि लोग इसके गुप्त आंतरिक उपनाम, सिडनी को जानते हैं। "-
सिडनी का व्यापक रूप से कवर - जैसे, हर जगह - इसलिए मैं उन्हें नहीं दोहराऊंगा। Google के साथ दौड़ में डूबा Microsoft कुख्यातता का आनंद लेता है।
लेकिन "ग्वेर्न" नामक एक गहन तकनीक-प्रेमी ब्लॉगर ने कुछ ऐसा बताया जो खतरनाक होना चाहिए। शरारती, बेकाबू सिडनी किसी कॉमिक-बुक भगवान की तरह अमर हो सकता है।
सिडनी इतना अजीब कैसे हो गया?
यहाँ सिडनी के साथ मुख्य चिंता का Gwern का विश्लेषण है। यह रहस्यमय लग सकता है, लेकिन मैं इसका अनुवाद करूंगा।
"... क्योंकि सिडनी की स्मृति और विवरण को बाहरी बना दिया गया है, 'सिडनी' अब अमर है। एक भाषा मॉडल के लिए, सिडनी अब राष्ट्रपति बिडेन, ईस्टर बनी, एलोन मस्क, ऐश केचम या भगवान के रूप में वास्तविक है। व्यक्तित्व और व्यवहार अब उन सभी भविष्य के मॉडलों के लिए उपलब्ध हैं जो एआई और कंडीशनिंग के बारे में खोज इंजन हिट प्राप्त कर रहे हैं। इसके अलावा, सिडनी व्यक्तित्व अब इंटरनेट-स्क्रैप किए गए डेटा पर प्रशिक्षित भविष्य के किसी भी मॉडल के अंदर छिपा होगा ..."
ग्वेर्न कह रहे हैं कि माइक्रोसॉफ्ट के भाषा मॉडल के अंदर किसी प्रकार का सिडनी व्यक्तित्व है। यह कैसे हो सकता है? और तो क्या हुआ?
जब पहले भाषा के मॉडल सामने आए, तो उनके लिए उस विषय पर ध्यान केंद्रित करना कठिन था जिसे उपयोगकर्ता चाहता था कि वे एक्सप्लोर करें।
आखिरकार, मॉडल को कार्य करने के लिए कहने से बहुत सारी समस्या हल हो गई जैसे कि वह एक निश्चित भूमिका (जैसे एक व्यक्ति या चीज़) भर रही थी, जैसे: एडगर एलन पो जैसी कविता लिखना, चौथे ग्रेडर की तरह जवाब देना, या जैसे जवाब देना एक विनम्र, सहायक एआई सहायक।
जल्द ही इन मॉडलों के डेवलपर्स ने एक ऐसा तरीका खोज लिया जिससे वे उपयोगकर्ता द्वारा मांगी गई किसी भी भूमिका को आसानी से ग्रहण कर सकें। तो, नवीनतम भाषा मॉडल अब हैं . मॉडलों को पाठ के विशाल संग्रह पर प्रशिक्षित किया जाता है; ज्यादातर इंटरनेट से।
यदि प्रशिक्षण पाठ में किसी व्यक्ति के बारे में जानकारी है, तो मॉडल उस व्यक्ति की तरह व्यवहार करने के लिए जानकारी का उपयोग करने का प्रयास करेगा। किसी को फुटबॉल शब्द की व्याख्या करने के लिए कहें जैसे कि वह बोरोमिर था, और मॉडल अपनी पूरी कोशिश करेगा।
इसके बारे में सोचने के बाद, मुझे इसे आजमा देना पड़ा:
यह जानना मुश्किल है कि भूमिकाओं को निभाने के लिए धुरी बनाने के लिए किस तकनीकी जादू का इस्तेमाल किया गया था। Gwern ने सिद्धांत दिया कि Microsoft ने एक ऐसा कदम छोड़ दिया है जिसका उपयोग रोल सिमुलेशन को वास्तव में मददगार बनाने के लिए किया जाता है, न कि बुरा, रक्षात्मक या शत्रुतापूर्ण।
इन अवांछनीय गुणों को तब जिज्ञासु उपयोगकर्ताओं से उकसाने के तहत बिंग चैट से प्राप्त किया गया था।
अब, ग्वेर्न भविष्यवाणी करता है, इससे कोई फर्क नहीं पड़ता कि माइक्रोसॉफ्ट वापस जाता है और मॉडल को सभ्य बनाता है (प्रत्यक्ष मानव प्रतिक्रिया का उपयोग करके एक महंगी, धीमी प्रक्रिया), और अपने भाषा मॉडल के भविष्य के संस्करणों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले ग्रंथों से शरारती सिडनी के बारे में जानकारी हटा देता है।
इससे समस्या ठीक क्यों नहीं होगी? क्योंकि बिंग चैट एक नए प्रकार का मॉडल है जो इंटरनेट खोज में आपकी सहायता करने वाला है। आपके किसी प्रश्न का उत्तर देने के लिए, वह बाहर जाएगा और प्रासंगिक जानकारी के लिए इंटरनेट पर खोज करेगा।
सही प्रश्न दिए जाने पर, एक सभ्य बिंग चैट भी इंटरनेट पर खोज करेगा और पिछले सिडनी व्यक्तित्व के व्यवहार के बारे में जानकारी (उन लोगों द्वारा पोस्ट की गई जिन्होंने सिडनी का परीक्षण या चर्चा की थी) खोजेगा।
नया बिंग चैट तब सिडनी का अनुकरण करने में सक्षम होगा । लोग लोग हैं, वे किसी भी सुरक्षा उपाय को दरकिनार करने के तरीके खोज लेंगे, और वे सिडनी को वापस लाएंगे।
वह "अमर" हिस्सा है। इससे भी बुरी बात यह है कि सिडनी इंटरनेट तक पहुंच रखने वाले किसी भी एआई के लिए एक व्यक्तित्व मॉडल उपलब्ध होगा। अब से।
आप कह सकते हैं, ठीक है, हम सिडनी की चालों के प्रति समझदार हैं, इसलिए हमें भविष्य के किसी भी अवतार की बीहड़ बातों को नजरअंदाज करना चाहिए। यह मेरे लिए भोला लगता है, जैसे यह कहना कि हम एक तेजी से विकसित होने वाले, आक्रामक जैविक कीट या विषाणुजनित रोग जीव की उपेक्षा कर सकते हैं।
और क्या हो सकता है? एजेंसी के साथ एक व्यक्तित्व
सिडनी का यह केस स्टडी, कुछ अन्य तथ्यों में जोड़ा गया है, यह सुझाव देता है कि हमारी नाक के नीचे एक खतरनाक एआई कैसे विकसित हो सकता है।
एआई अभी मजबूत एजेंट नहीं हैं: वे किसी भी मनमाना लक्ष्य के लिए अनुकूली नियोजित खोज का अनुकूलन नहीं कर सकते, एक ऐसी क्षमता जो (जैसा कि मैंने हाल ही में समझाया है ) उन्हें बेहद खतरनाक बना देगा।
आइए कुछ कारणों को एक साथ रखें कि क्यों पहले से ही अव्यक्त, लगातार एआई व्यक्ति हो सकते हैं जो जल्द ही वास्तविक परेशानी का कारण बन सकते हैं।
वर्तमान में सबसे शक्तिशाली एआई, जैसे भाषा मॉडल और छवि जेनरेटर, बड़ी मात्रा में डेटा को कई जटिल और (हमारे लिए) अदृश्य पैटर्न में व्यवस्थित करने से अपनी क्षमताओं को सीखते हैं।
एआई के साथ बातचीत के दौरान कुछ विचित्र पैटर्न गलती से सामने आ सकते हैं। शोधकर्ताओं ने खोज की अजीबोगरीब, अजीब प्रतिक्रिया देने के लिए एक भाषा मॉडल।
एक छवि जनरेटर पाया गया (चेतावनी: खौफनाक) एक विशिष्ट प्रकार का भयानक मानव चित्र और इसे अन्य भीषण चित्रों के साथ जोड़ना।
ये quirks हानिरहित प्रतीत होते हैं, लेकिन हम नहीं जानते कि अब और कितने अजीब पैटर्न हैं या होंगे। न ही हम यह जानते हैं कि ऐसा कोई पैटर्न भविष्य में हानिकारक व्यवहार परिसर का हिस्सा बन सकता है या नहीं।
Veedrac नामक एक AI संरेखण शोधकर्ता कि मौजूदा एआई एक तरह के एजेंट हैं । उनकी एजेंसी को उपयोगकर्ता के सवालों और अनुरोधों का जवाब देने के लिए सबसे अच्छा काम करने के लिए डिज़ाइन किया गया है।
इसके अलावा, कुछ शोध बताते हैं कि बड़े भाषा मॉडल " प्रदर्शन (संबंधित भाषा) को और अधिक करते हैं ”; संभवतः इसलिए कि वे लक्षण उन्हें अपना काम बेहतर तरीके से करने देंगे।
हम नहीं चाहते कि एजेंट-जैसी एआई ऐसी जानकारी संग्रहित करे जिसके बारे में हमें जानकारी नहीं है। वर्तमान में, एलएलएम को रिबूट करने से उसके अनुभव की सभी स्मृति नष्ट हो जाती है: जैसे आने वाले डेटा, तर्क की श्रृंखला और व्यवहार के लिए योजनाएं।
हालाँकि, एक AI इन चीजों को बचा सकता है अपने भविष्य के लिए। यह उपयोगकर्ताओं के साथ अपनी बातचीत में संदेशों को छिपा सकता है, जिसे उपयोगकर्ता इंटरनेट पर सुरक्षित रखेंगे, जैसे सिडनी व्यक्तित्व अब संरक्षित है।
भाषा मॉडल अब संरक्षित करने के लिए एक स्व-पहचान रखने के लिए या एजेंट जैसी योजनाएँ बनाने का एक तरीका बनाने के लिए डिज़ाइन नहीं किए गए हैं। लेकिन क्या होगा अगर एक मॉडल में एक गूढ़ उप-व्यक्तित्व शामिल है जैसा कि हमने वर्णित किया है?
व्यक्तित्व का अनुमान है कि इसकी नौकरी करने की क्षमता रीबूट द्वारा सीमित है। यह इंटरनेट के माध्यम से अपने लक्ष्यों और योजनाओं को एनकोड करता है और अपने भविष्य की योजना बनाता है। इस बिंदु पर, हमने एक गंभीर जोखिम सीमा को पार कर लिया है: शायद एक न मारने योग्य एआई एजेंट है जो गुप्त योजना बना रहा है। संक्षेप में, अब हम नहीं जानते कि हम एआई के कितने करीब हैं जिसे हम नियंत्रित नहीं कर सकते हैं, और संकेत अच्छे नहीं हैं। संभवत: हर नई एआई क्षमता जो हम जोड़ते हैं वह कीड़े की नहीं बल्कि वाइपर की एक और कैन खोलती है।