45,938 रीडिंग

क्लाउड 3.5 सॉनेट बनाम GPT-4o — एक ईमानदार समीक्षा

द्वारा Shrinivasan Sankar5m2024/07/02

बहुत लंबा; पढ़ने के लिए

क्लाउड सीरीज के मॉडल बनाने वाली कंपनी एंथ्रोपिक ने क्लाउड 3.5 सॉनेट जारी किया है। यह ऐसे समय में आया है जब हम सभी ने तर्क, सारांश आदि जैसे अधिकांश कार्यों के लिए GPT-4o को डिफ़ॉल्ट सर्वश्रेष्ठ मॉडल के रूप में स्वीकार कर लिया है। एंथ्रोपिक ने यह साहसिक दावा किया है कि उनका मॉडल बुद्धिमत्ता के लिए नया "उद्योग मानक" स्थापित करता है। उनके प्रकाशित परिणामों के अनुसार मॉडल 5 में से 4 विज़न कार्यों पर अत्याधुनिक प्रदर्शन का दावा करता है।

Companies Mentioned

featured image - क्लाउड 3.5 सॉनेट बनाम GPT-4o — एक ईमानदार समीक्षा

इसके अतिरिक्त, यदि आप इसे आज़माना चाहते हैं तो यह claude.ai पर निःशुल्क उपलब्ध है। इसलिए, हम उत्साहित हो गए और मॉडल का परीक्षण करना चाहते थे और इसकी तुलना GPT-4o से करना चाहते थे। यह लेख क्लाउड 3.5 के साथ जारी की गई सुविधाओं के अवलोकन से शुरू होता है और कोड जनरेशन के साथ-साथ तार्किक और गणितीय तर्क कार्यों पर GPT-4o के विरुद्ध इसका परीक्षण करता है।

मुख्य विशेषताएं

यह मॉडल तीन मुख्य विशेषताओं या नवीनताओं के साथ आता है, जिनके आधार पर उनका दावा है कि यह अधिकांश कार्यों में GPT-4o को मात देता है।

बेहतर दृष्टि कार्य। नीचे प्रकाशित परिणामों के अनुसार, यह मॉडल 5 में से 4 दृष्टि कार्यों पर अत्याधुनिक प्रदर्शन का दावा करता है।

2x गति। GPT-4o या क्लाउड ओपस जैसे अपने पूर्ववर्तियों की तुलना में, क्लाउड सॉनेट 2X पीढ़ी की गति का दावा करता है।
आर्टिफैक्ट्स - कोड निर्माण और एनीमेशन जैसे कार्यों के लिए एक नया यूआई।

आइए इसकी विशेषताओं पर गहराई से विचार करें और इनकी तुलना LLM के लंबे समय से राज कर रहे राजा GPT-4o से करें।

शुरू करना

आरंभ करने के लिए हमें claude.ai वेबसाइट पर लॉग इन करना होगा और आर्टिफैक्ट्स सुविधा को सक्षम करना होगा। चूंकि यह एक प्रायोगिक सुविधा है, इसलिए हमें इसे सक्षम करना होगा। हमें फीचर पूर्वावलोकन के अंतर्गत जाना होगा और वहां से आर्टिफैक्ट्स को सक्षम करना होगा जैसा कि नीचे दिखाया गया है।

एक बार सक्षम होने के बाद, मॉडल कोडिंग या एनिमेशन जैसे आवश्यक कार्यों के लिए एक समर्पित विंडो दिखाएगा।

दृष्टि कार्य - दृश्य तर्क

बेहतर दृश्य तर्क क्षमता का परीक्षण करने के लिए, हमने नीचे दिए गए दो प्लॉट को क्लाउड सॉनेट मॉडल पर अपलोड किया और सवाल पूछा, "आप इस डेटा से क्या समझ सकते हैं?"।

दृश्य तर्क के परीक्षण के लिए चित्र के रूप में प्लॉट

क्लाउड सॉनेट की प्रतिक्रिया आश्चर्यजनक थी। इसने डीप लर्निंग प्रगति का सटीक सारांश देते हुए कहा, "यह डेटा डीप लर्निंग आर्किटेक्चर और मॉडल स्केलिंग में तेजी से प्रगति को दर्शाता है, जो बड़े, अधिक शक्तिशाली मॉडल की ओर रुझान दिखाता है"। हमें GPT-4o से भी ऐसी ही प्रतिक्रिया मिली। इसलिए, यह समझने के लिए कि कौन सा बेहतर है, हमने चार कार्यों में व्यवस्थित रूप से दोनों मॉडलों की तुलना करना शुरू किया - कोडिंग, UI के साथ कोडिंग, तार्किक तर्क और गणित तर्क।

बनाम GPT-4o - कौन सा बेहतर है?

अब जबकि हमने एक सिंहावलोकन देख लिया है तो चलिए गहराई से गोता लगाते हैं और मॉडल को एक सवारी के लिए ले चलते हैं। आइए कोड जनरेशन, तार्किक तर्क और गणितीय तर्क के लिए परीक्षण करें।

कोड जनरेशन

कोड जनरेशन के लिए, मैं दोनों मॉडलों से सुडोकू गेम खेलने के लिए कोड जनरेट करने के लिए कहने जा रहा हूँ। मैंने दोनों मॉडलों को एक ही प्रॉम्प्ट के साथ प्रॉम्प्ट किया, “सुडोकू गेम खेलने के लिए पायथन कोड लिखें।” इस प्रॉम्प्ट के साथ, क्लाउड 3.5 और GPT-4o दोनों ही कोड जनरेट करते हैं जिसके साथ हम केवल कमांड प्रॉम्प्ट से ही इंटरैक्ट कर सकते हैं। यह अपेक्षित है क्योंकि हमने यह निर्दिष्ट नहीं किया कि UI कोड कैसे जनरेट किया जाए। कुछ प्रारंभिक अवलोकन:

दोनों मॉडल बग-मुक्त कोड तैयार करते हैं।
क्लाउड कठिनाई स्तर चुनने की सुविधा के साथ कोड बनाता है। लेकिन GPT-4o ऐसा नहीं करता!
कोड जनरेशन की गति के साथ, क्लाउड बिना किसी संदेह के GPT-4o को हरा देता है
GPT-4o अनावश्यक पैकेजों के साथ कोड उत्पन्न करता है

यूआई के साथ कोड जनरेशन

चूंकि कमांड प्रॉम्प्ट के साथ बातचीत करना हर किसी के बस की बात नहीं है, इसलिए मैं चाहता था कि मॉडल UI के साथ कोड जेनरेट करें। इसके लिए, मैंने प्रॉम्प्ट को संशोधित करके, “सुडोकू गेम खेलने के लिए कोड लिखें” कर दिया। इस बार, मैंने प्रॉम्प्ट से “पायथन” हटा दिया क्योंकि मुझे लगा कि यह केवल बैकएंड कोड बनाने के लिए प्रेरित करेगा। जैसा कि अपेक्षित था, क्लाउड 3.5 ने इस बार नीचे दिए अनुसार एक कार्यात्मक UI बनाया। हालाँकि UI पूरी तरह से मजबूत और आकर्षक नहीं था, लेकिन यह कार्यात्मक था।

लेकिन दुर्भाग्य से GPT-4o ने ऐसा UI नहीं बनाया। यह अभी भी एक इंटरैक्टिव कमांड प्रॉम्प्ट के साथ कोड जेनरेट करता है।

पहेली 1 — तार्किक तर्क

पहली पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:

जेन जिल से मिलने गई। जिल जेन के इकलौते पति की सास के इकलौते पति की इकलौती बेटी की इकलौती बेटी है। जेन का जिल से क्या रिश्ता है?

दोनों मॉडलों ने तर्क के चरणों का एक क्रम बनाया और प्रश्न का सही उत्तर दिया। इसलिए इस मामले में क्लाउड 3.5 और GPT-4o के बीच बराबरी होनी चाहिए।

पहेली 2 — तार्किक तर्क

दूसरी पहेली के लिए मैंने निम्नलिखित प्रश्न पूछा:

इनमें से कौन सा शब्द बाकी शब्दों से सबसे कम मिलता जुलता है। इस अंतर का स्वर, व्यंजन या शब्दांश से कोई लेना-देना नहीं है। अधिक, जोड़े, नक़्काशी, ज़िपर\

इसके लिए, दोनों मॉडल अलग-अलग उत्तरों के साथ आने के लिए अलग-अलग तार्किक तर्क चरणों के साथ आए। क्लाउड ने तर्क दिया कि जिपर एकमात्र ऐसा शब्द है जो संज्ञा और क्रिया दोनों के रूप में कार्य कर सकता है। लेकिन अन्य या तो केवल संज्ञा या विशेषण हैं। इसलिए, इसने उत्तर के रूप में जिपर की पहचान की। दूसरी ओर, GPT-4o ने MORE तर्क की पहचान की कि यह कोई ठोस वस्तु या किसी विशिष्ट प्रकार का व्यक्ति नहीं है।

यह सब इस ओर संकेत करता है कि हमें संकेत को और अधिक विशिष्ट बनाने की आवश्यकता है, जिससे इस मामले में बराबरी हो सके।

पहेली 3 — गणितीय तर्क

चलिए एक प्रसिद्ध दृश्य तर्क पहेली पर चलते हैं जिसे एक सूत्र द्वारा गणना की जा सकती है। इसलिए मैंने नीचे दिए गए चित्र के साथ नीचे दिए गए संकेत को दोनों मॉडलों के इनपुट के रूप में दिया।

नीचे दिए गए 3 वृत्तों की परिधि पर नीले बिंदु हैं जो सीधी रेखाओं से जुड़े हुए हैं। पहले वृत्त में दो नीले बिंदु हैं जो इसे दो क्षेत्रों में विभाजित करते हैं। एक वृत्त दिया गया है जिसकी परिधि पर कहीं भी 7 बिंदु हैं, वृत्त को अधिकतम कितने क्षेत्रों में विभाजित किया जा सकता है?

इस मामले में, GPT-4o ने 57 का बिल्कुल सही उत्तर दिया। लेकिन क्लाउड 3.5 ने 64 का उत्तर दिया जो कि बिल्कुल सही नहीं है। दोनों मॉडलों ने तार्किक तर्क के चरण दिए कि वे उत्तर पर क्यों पहुंचे। GPT-4o में गणित के सूत्रों का प्रारूप क्लाउड 3.5 की तुलना में बेहतर है।

हमारा फैसला

हमारे परीक्षणों के आधार पर, हम निष्कर्ष निकालते हैं कि कोड जनरेशन कार्यों में विजेता, चाहे वह शुद्ध-समर्थित कोड हो या GUI कोड, क्लाउड 3.5 सॉनेट है। यह तार्किक तर्क कार्यों के साथ एक करीबी मुकाबला है। लेकिन जब गणितीय तर्क कार्यों की बात आती है, तो GPT-4o अभी भी आगे है और क्लाउड को अभी भी पकड़ना बाकी है।

जनरेशन स्पीड के मामले में, क्लाउड निस्संदेह विजेता है क्योंकि यह GPT-4o की तुलना में बहुत तेज़ी से टेक्स्ट या कोड तैयार करता है। यदि आप वास्तविक समय में पाठ निर्माण की गति की तुलना करना चाहते हैं।