45,938 পড়া

ক্লড 3.5 সনেট বনাম GPT-4o — একটি সৎ পর্যালোচনা

দ্বারা Shrinivasan Sankar5m2024/07/02

অতিদীর্ঘ; পড়তে

অ্যানথ্রপিক, ক্লাউড সিরিজের মডেলগুলির পিছনে কোম্পানি, ক্লড 3.5 সনেট প্রকাশ করেছে৷ এটি এমন একটি সময়ে আসে যখন আমরা সকলেই যুক্তি, সংক্ষিপ্তকরণ ইত্যাদির মতো বেশিরভাগ কাজের জন্য GPT-4o কে ডিফল্ট সেরা মডেল হিসাবে গ্রহণ করেছি৷ অ্যানথ্রোপিক সাহসী দাবি করে যে তাদের মডেল বুদ্ধিমত্তার জন্য নতুন "শিল্পের মান" সেট করে৷ মডেলটি তাদের প্রকাশিত ফলাফল অনুসারে 5টি ভিশন টাস্কের মধ্যে 4টিতে অত্যাধুনিক পারফরম্যান্সের গর্ব করে।

Companies Mentioned

featured image - ক্লড 3.5 সনেট বনাম GPT-4o — একটি সৎ পর্যালোচনা

অ্যানথ্রপিক, ক্লড সিরিজের মডেলগুলির পিছনের কোম্পানি, ক্লড 3.5 সনেট প্রকাশ করেছে৷ এটি এমন একটি সময়ে আসে যখন আমরা সবাই যুক্তি, সংক্ষিপ্তকরণ, ইত্যাদির মতো বেশিরভাগ কাজের জন্য GPT-4o কে ডিফল্ট সেরা মডেল হিসাবে গ্রহণ করেছি৷ অ্যানথ্রোপিক সাহসী দাবি করে যে তাদের মডেল বুদ্ধিমত্তার জন্য নতুন "শিল্পের মান" সেট করে৷

অতিরিক্তভাবে, claude.ai-এ এটি বিনামূল্যে পাওয়া যায় যদি আপনি এটিকে স্পিন দিতে চান। সুতরাং, আমরা উত্তেজিত হয়েছিলাম এবং মডেলটি পরীক্ষা করতে এবং GPT-4o এর সাথে তুলনা করতে চেয়েছিলাম। এই নিবন্ধটি Claude 3.5 এর সাথে প্রকাশিত বৈশিষ্ট্যগুলির একটি ওভারভিউ দিয়ে শুরু হয় এবং কোড তৈরিতে GPT-4o এর সাথে পরীক্ষা করে, সেইসাথে যৌক্তিক এবং গাণিতিক যুক্তির কাজ করে।

প্রধান বৈশিষ্ট্য

মডেলটি তিনটি প্রধান বৈশিষ্ট্য বা নতুনত্ব নিয়ে আসে যা তাদের দাবি করে যে এটি বেশিরভাগ কাজে GPT-4o কে হারায়।

উন্নত দৃষ্টি কাজ. নীচে প্রকাশিত ফলাফল অনুসারে মডেলটি 5টির মধ্যে 4টি ভিশন টাস্কে অত্যাধুনিক পারফরম্যান্সের গর্ব করে।

2x গতি। GPT-4o বা ক্লড ওপাসের মতো তার নিজস্ব পূর্বসূরীদের তুলনায়, ক্লড সনেট 2X প্রজন্মের গতির গর্ব করে।
আর্টিফ্যাক্টস — কোড জেনারেশন এবং অ্যানিমেশনের মতো কাজের জন্য একটি নতুন UI।

আসুন বৈশিষ্ট্যগুলির আরও গভীরে ডুব দেওয়া যাক এবং সেগুলিকে LLM-এর দীর্ঘ রাজত্বকারী রাজা, GPT-4o-এর সাথে তুলনা করি৷

শুরু হচ্ছে

শুরু করার জন্য আমাদের claude.ai ওয়েবসাইটে লগ ইন করতে হবে এবং আর্টিফ্যাক্ট বৈশিষ্ট্য সক্রিয় করতে হবে। যেহেতু এটি একটি পরীক্ষামূলক বৈশিষ্ট্য, আমাদের এটি সক্ষম করতে হবে। আমাদের ফিচার প্রিভিউ এর অধীনে যেতে হবে এবং সেখান থেকে আর্টিফ্যাক্ট সক্রিয় করতে হবে যেমনটি নিচে দেখানো হয়েছে।

একবার সক্ষম হয়ে গেলে, কোডিং বা অ্যানিমেশনের মতো কাজের জন্য মডেলটি পাশে একটি ডেডিকেটেড উইন্ডো দেখাবে৷

ভিশন টাস্ক - ভিজ্যুয়াল রিজনিং

উন্নত চাক্ষুষ যুক্তি ক্ষমতা পরীক্ষা করার জন্য, আমরা নীচের দুটি প্লট ক্লদ সনেট মডেলে আপলোড করি এবং প্রশ্ন জিজ্ঞাসা করি, "আপনি এই ডেটা থেকে কী তৈরি করতে পারেন?"।

চাক্ষুষ যুক্তি পরীক্ষা করার জন্য চিত্র হিসাবে প্লট

ক্লদ সনেট থেকে প্রতিক্রিয়া বিস্ময়কর ছিল। এটি সুনির্দিষ্টভাবে গভীর শিক্ষার অগ্রগতির সংক্ষিপ্তসারে বলে, "এই ডেটা গভীর শিক্ষার আর্কিটেকচার এবং মডেল স্কেলিংয়ে দ্রুত অগ্রগতির চিত্র তুলে ধরে, বৃহত্তর, আরও শক্তিশালী মডেলের দিকে একটি প্রবণতা দেখায়"। আমরা GPT-4o থেকেও অনুরূপ প্রতিক্রিয়া পেয়েছি। সুতরাং, কোনটি ভাল তা আরও ভালভাবে বোঝার জন্য, আমরা চারটি কাজের মধ্যে পদ্ধতিগতভাবে উভয় মডেলের তুলনা করতে শুরু করেছি — কোডিং, UI এর সাথে কোডিং, লজিক্যাল রিজনিং এবং ম্যাথ রিজনিং।

GPT-4o বনাম — কোনটি সেরা?

এখন যেহেতু আমরা একটি ওভারভিউ দেখেছি আসুন গভীরভাবে ডুব দেই এবং একটি রাইডের জন্য মডেলটি নিয়ে যাই। আসুন কোড জেনারেশন, লজিক্যাল রিজনিং এবং গাণিতিক যুক্তি পরীক্ষা করি।

কোড জেনারেশন

কোড জেনারেশনের জন্য, আমি উভয় মডেলকেই সুপরিচিত সুডোকু গেম খেলার জন্য কোড তৈরি করতে বলব। আমি সঠিক প্রম্পট সহ উভয় মডেলকে অনুরোধ করেছিলাম, "সুডোকু গেমটি খেলতে পাইথন কোড লিখুন।" এই প্রম্পটের মাধ্যমে, Claude 3.5 এবং GPT-4o উভয়ই কোড তৈরি করে যার সাথে আমরা শুধুমাত্র কমান্ড প্রম্পট থেকে ইন্টারঅ্যাক্ট করতে পারি। এটি প্রত্যাশিত কারণ আমরা কীভাবে UI কোড তৈরি করতে হয় তা উল্লেখ করিনি৷ কিছু প্রাথমিক পর্যবেক্ষণ:

উভয় মডেলই বাগ-মুক্ত কোড মন্থন করে।
ক্লাউড অসুবিধার স্তর নির্বাচন করতে বৈশিষ্ট্য সহ কোড তৈরি করে। কিন্তু GPT-4o করে না!
কোড তৈরির গতির সাথে, ক্লড কোন সন্দেহ ছাড়াই GPT-4o কে পরাজিত করে
GPT-4o অপ্রয়োজনীয় প্যাকেজগুলির সাথে কোড তৈরি করে

UI এর সাথে কোড জেনারেশন

যেহেতু কমান্ড প্রম্পটের সাথে ইন্টারঅ্যাক্ট করা সবার জন্য নয়, আমি চেয়েছিলাম মডেলগুলি UI এর সাথে কোড তৈরি করুক। এই জন্য, আমি প্রম্পটটি পরিবর্তন করেছি, "সুডোকু গেম খেলতে কোড লিখুন"। এইবার, আমি প্রম্পট থেকে "পাইথন" সরিয়ে দিয়েছি কারণ আমি অনুভব করেছি যে এটি এটিকে শুধুমাত্র ব্যাকএন্ড কোড তৈরি করতে প্রম্পট করবে। প্রত্যাশিত হিসাবে, Claude 3.5 এই সময় নীচের মত একটি কার্যকরী UI তৈরি করেছে। যদিও UI সম্পূর্ণরূপে শক্তিশালী এবং আকর্ষণীয় ছিল না, এটি কার্যকরী ছিল।

কিন্তু GPT-4o, দুর্ভাগ্যবশত, অনুরূপ UI তৈরি করেনি। এটি এখনও একটি ইন্টারেক্টিভ কমান্ড প্রম্পটের সাথে কোড তৈরি করেছে।

ধাঁধা 1 — লজিক্যাল রিজনিং

প্রথম ধাঁধার জন্য, আমি নীচের প্রশ্ন জিজ্ঞাসা করেছি:

জেন জিল দেখতে গিয়েছিল। জিল হল জেনের একমাত্র স্বামীর শাশুড়ির একমাত্র স্বামীর একমাত্র মেয়ের একমাত্র মেয়ে। জিলের সাথে জেনের কি সম্পর্ক?

উভয় মডেল যুক্তি পদক্ষেপের একটি ক্রম নিয়ে এসেছে এবং সঠিকভাবে প্রশ্নের উত্তর দিয়েছে। সুতরাং এই ক্ষেত্রে এটি Claude 3.5 এবং GPT-4o এর মধ্যে একটি টাই হতে হবে।

ধাঁধা 2 — লজিক্যাল রিজনিং

দ্বিতীয় ধাঁধার জন্য, আমি নীচের প্রশ্ন জিজ্ঞাসা করেছি:

কোনটি শব্দটি অন্যদের মতো সবচেয়ে কম। স্বরবর্ণ, ব্যঞ্জনবর্ণ বা সিলেবলের সাথে পার্থক্যের কোন সম্পর্ক নেই। আরও, জোড়া, ইচার্স, জিপপার\

এর জন্য, উভয় মডেলই ভিন্ন ভিন্ন উত্তর নিয়ে আসতে বিভিন্ন যৌক্তিক যুক্তির পদক্ষেপ নিয়ে এসেছে। ক্লড যুক্তি দিয়েছিলেন যে জিপার একমাত্র শব্দ যা একটি বিশেষ্য এবং ক্রিয়া উভয় হিসাবে কাজ করতে পারে। কিন্তু অন্যরা হয় শুধু বিশেষ্য বা বিশেষণ। সুতরাং, এটি জিপপারকে উত্তর হিসাবে চিহ্নিত করেছে। GPT-4o, অন্য দিকে, আরও যুক্তি চিহ্নিত করেছে যে এটি একটি কংক্রিট বস্তু বা একটি নির্দিষ্ট ধরনের ব্যক্তি নয়।

এই সমস্ত ইঙ্গিত দেয় যে আমাদের প্রম্পটটিকে আরও নির্দিষ্ট করতে হবে যার ফলে এই ক্ষেত্রে একটি টাই হবে।

ধাঁধা 3 — গণিত যুক্তি

আসুন একটি সুপরিচিত চাক্ষুষ যুক্তি ধাঁধার দিকে এগিয়ে যাই যা একটি সূত্র দ্বারা গণনা করা যেতে পারে। তাই আমি উভয় মডেলে ইনপুট হিসাবে নীচের প্রম্পটের সাথে নীচের চিত্রটি দিয়েছি।

নীচের 3টি বৃত্তের পরিধিতে নীল বিন্দু রয়েছে যা সরলরেখা দ্বারা সংযুক্ত। প্রথম বৃত্তে দুটি নীল বিন্দু রয়েছে যা একে দুটি অঞ্চলে বিভক্ত করে। একটি বৃত্তের পরিধির যে কোন স্থানে 7টি বিন্দু রয়েছে, বৃত্তটিকে সর্বাধিক কতটি অঞ্চলে ভাগ করা যায়?

এই ক্ষেত্রে, GPT-4o 57 এর সঠিক উত্তর নিয়ে এসেছে। কিন্তু Claude 3.5 64 এর উত্তর নিয়ে এসেছে যা পুরোপুরি সঠিক নয়। উভয় মডেল কেন তারা উত্তরে পৌঁছেছে তা নিয়ে যৌক্তিক যুক্তিযুক্ত পদক্ষেপ দিয়েছে। GPT-4o-তে গণিতের সূত্রের বিন্যাস ক্লাউড 3.5-এর চেয়ে পছন্দনীয়।

আমাদের রায়

আমাদের পরীক্ষার উপর ভিত্তি করে, আমরা উপসংহারে পৌঁছেছি যে কোড তৈরির কাজগুলির সাথে বিজয়ী, তা বিশুদ্ধ-ব্যাকড কোড বা GUI কোডই হোক না কেন, ক্লাউড 3.5 সনেট। এটা যৌক্তিক যুক্তি কাজ সঙ্গে একটি ঘনিষ্ঠ বন্ধন. কিন্তু যখন গাণিতিক যুক্তির কাজ আসে, GPT-4o এখনও পথ দেখায় এবং ক্লড এখনও ধরতে পারেনি।

প্রজন্মের গতির পরিপ্রেক্ষিতে, ক্লড কোন সন্দেহ নেই যে বিজয়ী কারণ এটি GPT-4o থেকে অনেক দ্রুত পাঠ্য বা কোড মন্থন করে। আমাদের চেক আউট আপনি যদি রিয়েল টাইমে পাঠ্য তৈরির গতি তুলনা করতে চান।