टीएल; डीआर: 49,717 बहुविकल्पीय प्रश्नों में, चैटजीपीटी 66.7% सही था। कैटेगरी के हिसाब से ब्रेकडाउन देखने के लिए पढ़ते रहें
, मुझे यह देखने का विचार आया कि आप एआई के साथ सामान्य ज्ञान के प्रश्नों का कितनी अच्छी तरह उत्तर दे सकते हैं। मैंने word2vec का उपयोग किया और उन उत्तरों को चुना जिनके आधार पर बहु-विकल्प वाले उत्तर में वाक्य के सदिश के औसत के साथ उच्चतम कोसाइन समानता थी। सीधे शब्दों में कहें, यह... बिल्कुल काम नहीं किया।
प्रश्नों का प्रतिशत जो इस पद्धति को सही मिला, यादृच्छिक रूप से उत्तर चुनने से उल्लेखनीय रूप से बेहतर नहीं था।
जब word2vec पेपर पहली बार सामने आया, तो यह क्रांतिकारी था कि हम शब्दों के शब्दार्थ अर्थों के लिए उपमाएँ कर सकते हैं। " "। मैं फिदा था। 2013 में निकला था, और यहां हम 2023 में हैं।
10 साल बाद और मशीन सीखने, समझ, समझ, आदि में उन्नति की अनगिनत पीढ़ियाँ।
2017 के जून में, हमें " " पेपर मिला, जिसने ट्रांसफॉर्मर आर्किटेक्चर पेश किया, जो कदम का कार्य था जिसने हमें प्राकृतिक भाषा प्रसंस्करण में यह क्रांति ला दी। तो, अब क्या अलग है?
2022 के अंत में, OpenAI ने जारी किया। जो, इन सब के केंद्र में, एक शानदार UX है जिसे किसी ने GPT-3.5 के साथ इंटरैक्ट करने के लिए बनाया है।
मूल GPT-3 को 2020 की गर्मियों में निजी बीटा में उपलब्ध कराया गया था, और एक खेल का होने के बावजूद, GPT-3 का उपयोग अभी भी रोजमर्रा के व्यक्ति के लिए काफी डराने वाला था।
खेल के मैदान में GPT-3 की प्रतिक्रिया को ट्यून करने के लिए सभी नॉब्स और पैरामीटर थे और इसने कई लोगों को इसका उपयोग करने से रोक दिया। दूसरी ओर, चैटजीपीटी एक चैटबॉट था। यह Slack या Microsoft Teams में किसी से बात करने से अलग नहीं लग रहा था।
कोई भी साइन अप कर सकता था, कोई प्रतीक्षा सूची नहीं थी, और कोई डरावनी घुंडी नहीं थी। ।
इस लेख के बाकी हिस्सों के लिए, मैं मॉडल को चैटजीपीटी के रूप में संदर्भित करूंगा, हालांकि यह पूरी तरह से सटीक नहीं है क्योंकि चैटजीपीटी जीपीटी-3.5 का एक बेहतर-ट्यून संस्करण है।
तो, यह कितना स्मार्ट है? अपने मूल प्रयोग के 6 साल बाद, मैं यह पता लगाना चाहता था कि आज तक हमने जो सबसे प्रभावशाली मशीन लर्निंग देखी है, उनमें से कुछ की क्षमताएं क्या हैं। हमने चैटजीपीटी के रचनात्मक कार्यों को देखा है। मैंने अपनी पत्नी और मेरे उपयोग के लिए एक मजेदार वेबसाइट भी बनाई: //catstories.ai।
ChatGPT रचनात्मक कार्यों में अद्भुत है, लेकिन ऐसे कार्यों के लिए जिनमें अधिक ज्ञान शामिल है, राय काफी अधिक विभाजित हैं।
कुछ लोगों का मानना है कि ChatGPT अपने सहज ज्ञान युक्त इंटरफ़ेस के साथ Google जैसे पारंपरिक खोज इंजनों को बदलने जा रहा है। ।
बड़ी मात्रा में इंटरनेट पढ़कर ChatGPT को वह सब कुछ सिखाया जाता है जो वह जानता है, और जब वह पाठ उत्पन्न करता है तो वह उस जानकारी का उपयोग करता है। गैर-तकनीकी के लिए, आप इसे अपने फ़ोन के स्वतः पूर्ण, लेकिन अधिक स्मार्ट होने के रूप में सोच सकते हैं।
यदि आप चतुर हैं कि आप चैटजीपीटी को कैसे संकेत देते हैं, तो आप इसे क्रांतिकारी चीजें करने और इसके ज्ञान का परीक्षण करने के लिए प्राप्त कर सकते हैं। उदाहरण के लिए, चैटजीपीटी पास करने में सक्षम था।
आप इसे मार्केटिंग कॉपी लिख सकते हैं, या आपके लिए ईमेल लिख सकते हैं। लेकिन अगर हम इसे खोज इंजन जैसी चीजों को बदलने के लिए सत्य के स्रोत के रूप में उपयोग करने जा रहे हैं, तो यह सामान्य ज्ञान के साथ कैसे काम करता है?
मैंने इसका परीक्षण कैसे किया?
डेटासेट बहुविकल्पीय प्रश्नों का एक क्रिएटिव कॉमन्स डेटा सेट है। प्रश्नों को 22 श्रेणियों में बांटा गया है जैसे: जानवर, मनोरंजन, इतिहास, फिल्में और खेल।
अधिकांश प्रश्नों में 4 संभावित बहुविकल्पीय उत्तर होते हैं, लेकिन कुछ प्रश्न सही या गलत होते हैं।
प्रश्न निम्न प्रारूप में आते हैं:
#Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos
सबसे पहले, आपके पास स्वयं प्रश्न है। तब आपके पास सही उत्तर है। अंत में, आपके पास उत्तर के लिए आपके विकल्प हैं; प्रत्येक पंक्ति पर एक।
मेरी स्क्रिप्ट प्रत्येक श्रेणी को डाउनलोड करेगी और चैटजीपीटी से प्रत्येक प्रश्न पूछेगी।
उपरोक्त प्रश्न के लिए, मैं अपने संकेत को इस तरह दिखने के लिए प्रारूपित करूंगा:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:
इसके बाद मैं इसे ChatGPT को भेजूंगा और इसके उत्तर की तुलना सही उत्तर से करूंगा।
Sooooooo, यह कैसे होगा?
यहां अपरिष्कृत डेटा दिया गया है, जो कम से कम सबसे सही के क्रम में लगाया गया है:
Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377
यह देखना वाकई दिलचस्प है कि ये श्रेणियां कैसे टूटती हैं। विशेष रूप से, चैटजीपीटी ने ब्रेन-टीज़र श्रेणी के साथ अच्छा प्रदर्शन नहीं किया। आइए इन प्रश्नों के कुछ उदाहरण देखें।
#Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project
इसे समझने में मुझे थोड़ा समय लगा, लेकिन ChatGPT ने इसे सही पाया। उत्तर बी है। वे अक्षर विंडोज़, 98 उल्टा कहते हैं। जब मैं में अपने एक मित्र से बात कर रहा था, तो उन्होंने सुझाव दिया कि मैं खुद को समझाने के लिए चैटजीपीटी प्राप्त करने का प्रयास करता हूं। तो मैंने वह किया।
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.
सबसे पहले, मैं प्रभावित हुआ कि चैटजीपीटी इसका पता लगाने में सक्षम था, लेकिन वास्तव में ऐसा लगता है कि चैटजीपीटी ने अभी अनुमान लगाया है।
आइए एक उदाहरण देखें जहां चैटजीपीटी गलत था।
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.
यहां एक शानदार प्रदर्शन है कि कैसे चैटजीपीटी काफी गूंगा हो सकता है। यह अंकगणित पूरी तरह गलत निकला। क्योंकि यह सिर्फ पाठ उत्पन्न करता है, इसका मतलब यह नहीं है कि इसमें अंकगणित को सही ढंग से एन्कोड किया गया है। यहाँ सही उत्तर 2 है। 2 वर्ग 4 है, गुना 5 20 है। 2 गुना 10 भी 20 है।
आइए एक और उदाहरण देखें जहां डेटा सेट के अनुसार चैटजीपीटी सही था, लेकिन स्पष्टीकरण काफी कुछ नहीं जोड़ता है:
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.
तो, यह वास्तव में दिलचस्प है। डेटा सेट में इनमें से किसी भी ब्रेन टीज़र के लिए स्पष्टीकरण नहीं है, लेकिन यह सही उत्तर को "सत्य" के रूप में सूचीबद्ध करता है। यदि आप कुछ गूगलिंग करते हैं, तो आप पाएंगे कि पहेली का उत्तर "सच" माना जाता है क्योंकि आदमी गेंदों को हथकंडा दे सकता है।
ऐसी स्थिति की को अनदेखा करते हुए, चैटजीपीटी उत्तर, एक बार फिर अंकगणित को पूरी तरह से गलत बताते हुए कहता है कि 201 पाउंड 200 पाउंड के अधिकतम वजन से कम है।
आइए एक अंतिम उदाहरण देखें जो एनएलपी क्षेत्र में कुछ को संबोधित करता है जिसे कहा जाता है। जो, सरलीकृत करने के लिए, मूल रूप से यह समझने में सक्षम हो रहा है कि सर्वनाम एक ही वाक्य में अस्पष्ट अभिनेताओं को कैसे हल करते हैं।
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.
इस उत्तर में, ChatGPT समझाता है कि लड़के को पीटा जा रहा है, और इसलिए, भले ही "उसे" और "उसके" के उपयोग के बीच कुछ अस्पष्टता हो सकती है, या तो लड़के या पिता का जिक्र करते हुए, ChatGPT संदर्भ को समझता है लड़के की पिटाई की जा रही है।
इन ब्रेन टीज़र को तार्किक निष्कर्ष की आवश्यकता होती है जो ऐसा लगता है जैसे चैटजीपीटी वास्तव में तर्क नहीं करता है। यह समझ में आता है कि यह वह श्रेणी है जिसमें चैटजीपीटी सबसे अधिक विफल रहा है, लेकिन कुछ प्रभावशाली उत्तर भी हैं।
ऐसा कहा जा रहा है, यहां तक कि ChatGPT को खुद को स्पष्ट करने के लिए कहना एक उत्पन्न प्रतिक्रिया है। कहने के लिए कुछ भी नहीं है कि चैटजीपीटी समस्याओं के बारे में इस तरह सोच रहा है।
आइए एक अन्य श्रेणी, साहित्य को देखें, जो संभवतः चैटजीपीटी में अच्छा होना चाहिए क्योंकि साहित्य के बारे में जानने के लिए बहुत सारे पाठ और संदर्भ होने चाहिए।
इन ब्रेन टीज़र को तार्किक निष्कर्ष की आवश्यकता होती है जो ऐसा लगता है जैसे चैटजीपीटी वास्तव में तर्क नहीं करता है। यह समझ में आता है कि यह वह श्रेणी है जिस पर चैटजीपीटी सबसे अधिक विफल रहा है।
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.
इस मामले में, चैटजीपीटी सही है। हैरी पॉटर एक बड़े प्रशंसक के साथ काफी लोकप्रिय है कि यह समझ में आता है कि शायद इसके बारे में बहुत बात की जाती है।
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.
यहाँ एक और वास्तव में दिलचस्प मामला है। हैरी गिन्नी से शादी करता है और उसके दो बच्चे हैं, हर्मियोन नहीं। यह सोचने की कोशिश कर रहा हूं कि यह कैसे हो सकता है, मुझे आश्चर्य है कि क्या इंटरनेट टिप्पणियों और शायद फैन फिक्शन जो कि प्रशिक्षण सेट का हिस्सा था, में पर्याप्त सामग्री थी जो हैरी और हर्मियोन को एक साथ रहना पसंद करती थी।
चैटजीपीटी के अधिक ज्ञान आधार के लिए निहितार्थ यह है कि यदि इसके प्रशिक्षण डेटा में पर्याप्त *राय* है तो आप इसे प्रभावित कर सकते हैं जो इसे सही लगता है।
समेट रहा हु
जैसा मैंने कहा, लगभग 50,000 प्रश्न हैं। उनमें से हर एक में खोदना एक पोस्ट के लिए व्यावहारिक नहीं है, लेकिन यह जानने की कोशिश करना वाकई दिलचस्प है कि विभिन्न श्रेणियों में चैटजीपीटी बेहतर या खराब क्यों है।
ब्रेन-टीज़र जैसी श्रेणियों में, कुछ प्रश्नों के उत्तर देने के लिए लागू करने और संयुक्त करने की आवश्यकता से कहीं अधिक तर्क है।
टेलीविजन और वीडियो गेम जैसी अन्य कम स्कोरिंग श्रेणियों में, मेरा अनुमान है कि क्योंकि सामग्री स्वयं एक इंडेक्सेबल/उपभोज्य प्रारूप में नहीं है, इसलिए चैटजीपीटी के पास इसके बारे में अधिक जानकारी नहीं है।
ChatGPT ने स्वयं गेम नहीं खेले हैं या टेलीविज़न शो नहीं देखे हैं। शो में क्या हुआ, इसके बारे में तीसरे पक्ष की सामग्री हो सकती है, लेकिन इसके बजाय शो की सामग्री का उल्लेख पासिंग में किया जाएगा।
उच्च स्कोरिंग श्रेणियों में, सभी श्रेणियां उन सामग्रियों के लिए होती हैं जिन्हें हमारे पास ऑडियो, वीडियो इत्यादि होने से बहुत पहले टेक्स्ट में प्रलेखित किया गया है।
भूगोल श्रेणी और इतिहास श्रेणी में ऐसी सामग्री है जो टेलीविजन सामग्री जैसी चीजों को नियमित रूप से रखने के लिए हमारे पास तकनीक और भंडारण से बहुत पहले से मौजूद है।
यह सब कहा जा रहा है, विषयों के इतने विशाल चयन को देखते हुए 66% शुद्धता अभी भी बहुत प्रभावशाली है। लेकिन जैसा कि हमने सीखा, कभी-कभी उत्तर कथित तौर पर सही होते हैं, लेकिन स्पष्टीकरण हमेशा सही नहीं होते हैं।
मुझे नहीं लगता कि चैटजीपीटी या कोई भी बड़ा भाषा मॉडल जो अभी हमारे पास है वह मजबूत एआई या सामान्य एआई है जिस पर कुछ लेख चाहते हैं कि आप इस पर विश्वास करें।
मुझे नहीं लगता कि कोई भी बड़े भाषा मॉडल जो प्रकृति में उदार हैं, उन्हें पारंपरिक खोज इंजनों को प्रतिस्थापित करना चाहिए जो उच्च गुणवत्ता वाली जानकारी पेश करते हैं। जैसे खोज इंजन हैं जो चौराहे की खोज कर रहे हैं, लेकिन इस तकनीक के लिए अभी शुरुआती दिन हैं!
विकास और अंतिम रन के बीच, इस प्रयोग ने मुझे सभी प्रश्नों के लिए GPT-3 API को हिट करने के लिए लगभग $100 का खर्च दिया। यदि आप पर विचार करेंगे तो मैं हमेशा आभारी रहूंगा।
यदि कोई कंपनी काम को प्रायोजित करने के लिए तैयार है, तो अलग-अलग संकेतों को आज़माना दिलचस्प होगा, उत्तरों के क्रम को यादृच्छिक करना, परीक्षणों को कई बार चलाने का प्रयास करना आदि।
मैं भी वही परीक्षण पर चलाना पसंद करूंगा, लेकिन यह देखते हुए कि यह परीक्षण कितना महंगा था, एक प्रश्न सेट पर परीक्षण को लगभग 10 गुना चलाना मेरे लिए अभी बहुत अधिक होगा।
हमेशा की तरह, इसके लिए मैंने जो कोड लिखा था, वह सब उपलब्ध है। इस पोस्ट का कोड देखें।
पर द्वारा फोटो