45,948 okumalar

Claude 3.5 Sonnet vs GPT-4o — Dürüst bir inceleme

ile Shrinivasan Sankar5m2024/07/02

Çok uzun; Okumak

Claude model serisinin arkasındaki şirket olan Anthropic, Claude 3.5 Sonnet'i piyasaya sürdü. Bu, hepimizin akıl yürütme, özetleme vb. gibi görevlerin çoğu için GPT-4o'yu varsayılan en iyi model olarak kabul ettiğimiz bir zamanda geliyor. Anthropic, kendi modelinin zeka için yeni "endüstri standardını" belirlediğini cesur bir şekilde iddia ediyor. Model, yayınlanan sonuçlara göre 5 görüş görevinden 4'ünde son teknoloji performansa sahiptir.

Companies Mentioned

featured image - Claude 3.5 Sonnet vs GPT-4o — Dürüst bir inceleme

Claude model serisinin arkasındaki şirket olan Anthropic, Claude 3.5 Sonnet'i piyasaya sürdü. Bu, hepimizin akıl yürütme, özetleme vb. gibi çoğu görev için varsayılan en iyi model olarak GPT-4o'yu kabul ettiğimiz bir zamanda geliyor. Anthropic, kendi modelinin zeka için yeni "endüstri standardını" belirlediğini cesur bir şekilde iddia ediyor.

Ayrıca, eğer denemek isterseniz Claude.ai'de ücretsiz olarak mevcut. Biz de heyecanlandık ve modeli test edip GPT-4o ile karşılaştırmak istedik. Bu makale, Claude 3.5 ile yayımlanan özelliklere genel bir bakışla başlıyor ve onu kod oluşturmanın yanı sıra mantıksal ve matematiksel akıl yürütme görevlerinde GPT-4o'ya göre test ediyor.

Ana Özellikler

Model, çoğu görevde GPT-4o'yu geride bıraktığını iddia eden üç ana özellik veya yenilikle birlikte geliyor.

Geliştirilmiş görme görevleri. Model, aşağıda yayınlanan sonuçlara göre 5 görüş görevinden 4'ünde son teknoloji performansa sahiptir.

2x hız. GPT-4o veya Claude Opus gibi öncülleriyle karşılaştırıldığında Claude Sonnet, 2 kat üretim hızına sahiptir.
Artifacts — kod oluşturma ve animasyon gibi görevler için yeni bir kullanıcı arayüzü.

Özellikleri daha derinlemesine inceleyelim ve bunları uzun süredir hüküm süren Yüksek Lisans Kralı GPT-4o ile karşılaştıralım.

Başlarken

Başlamak için Claude.ai web sitesinde oturum açmamız ve eserler özelliğini etkinleştirmemiz gerekiyor. Deneysel bir özellik olduğu için etkinleştirmemiz gerekiyor. Aşağıda gösterildiği gibi özellik önizlemesine girmeli ve Artifact'leri buradan etkinleştirmeliyiz.

Etkinleştirildiğinde model, kodlama veya animasyon gibi ihtiyaç duyulan görevler için yan tarafta özel bir pencere gösterecektir.

Vizyon Görevleri - Görsel Muhakeme

Geliştirilmiş görsel muhakeme yeteneğini test etmek için aşağıdaki iki grafiği Claude Sonnet modeline yükleyip "Bu verilerden ne anlayabilirsiniz?" sorusunu sorduk.

Görsel muhakemeyi test etmek için görsel olarak grafikler

Claude Sonnet'in yanıtı şaşırtıcıydı. Derin öğrenme sürecini tam olarak özetledi: "Bu veriler, derin öğrenme mimarilerinde ve model ölçeklendirmede hızlı ilerlemeyi gösteriyor, daha büyük, daha güçlü modellere doğru bir eğilim gösteriyor". GPT-4o'dan da benzer bir yanıt aldık. Hangisinin daha iyi olduğunu daha iyi anlamak için her iki modeli de dört görevde sistematik olarak karşılaştırmaya başladık: kodlama, kullanıcı arayüzü ile kodlama, mantıksal akıl yürütme ve Matematik akıl yürütme.

GPT-4o'ya karşı — Hangisi en iyisi?

Artık bir genel bakış gördüğümüze göre, daha derine inelim ve modeli bir incelemeye alalım. Kod oluşturmayı, mantıksal akıl yürütmeyi ve matematiksel akıl yürütmeyi test edelim.

Kod Oluşturma

Kod üretimi için her iki modelden de ünlü Sudoku oyununu oynamak için kod üretmelerini isteyeceğim. Her iki modele de tam olarak "sudoku oyununu oynamak için python kodu yazın" komutunu verdim. Bu istemle hem Claude 3.5 hem de GPT-4o, yalnızca komut isteminden etkileşim kurabileceğimiz bir kod üretir. UI kodunun nasıl oluşturulacağını belirtmediğimiz için bu beklenen bir durumdur. Bazı ilk gözlemler:

Her iki model de hatasız kod üretir.
Claude, zorluk seviyesini seçme özelliğine sahip kod oluşturur. Ancak GPT-4o bunu yapmıyor!
Kod oluşturma hızıyla Claude, şüphesiz GPT-4o'yu geride bırakıyor
GPT-4o gereksiz paketlerle kod üretme eğilimindedir

Kullanıcı Arayüzü ile Kod Oluşturma

Komut istemiyle etkileşimde bulunmak herkesin harcı olmadığından modellerin kullanıcı arayüzü ile kod üretmesini istedim. Bunun için komut istemini “sudoku oyunu oynamak için kod yaz” olarak değiştirdim. Bu sefer, yalnızca arka uç kodunu üretmesini isteyeceğini düşündüğüm için komut isteminden "python"u kaldırdım. Beklendiği gibi Claude 3.5 bu sefer aşağıdaki gibi işlevsel bir kullanıcı arayüzü üretti. Kullanıcı arayüzü tamamen sağlam ve çekici olmasa da işlevseldi.

Ancak GPT-4o ne yazık ki benzer bir kullanıcı arayüzü üretmedi. Hala etkileşimli bir komut istemiyle kod üretiyordu.

Bulmaca 1 — Mantıksal Muhakeme

İlk bulmaca için aşağıdaki soruyu sordum:

Jane, Jill'i ziyarete gitti. Jill, Jane'in tek kocasının kayınvalidesinin tek kocasının tek kızının tek kızıdır. Jane'in Jill ile ilişkisi nedir?

Her iki model de bir dizi akıl yürütme adımıyla ortaya çıktı ve soruyu doğru yanıtladı. Yani bu durumda Claude 3.5 ile GPT-4o arasında bir bağ olması gerekiyor.

Bulmaca 2 — Mantıksal Muhakeme

İkinci bulmaca için aşağıdaki soruyu sordum:

Kelimelerden hangisi diğerlerine en az benziyor? Farkın sesli harflerle, ünsüz harflerle veya hecelerle hiçbir ilgisi yoktur. DAHA FAZLA, ÇİFTLER, GRAVÜRLER, FERMUAR\

Bunun için her iki model de farklı mantıksal akıl yürütme adımları uygulayarak farklı yanıtlar ortaya çıkarmıştır. Claude, fermuarın hem isim hem de fiil olarak işlev görebilen tek kelime olduğunu düşündü. Ancak diğerleri ya sadece isim ya da sıfattır. Yani cevap olarak ZIPPER'ı belirledi. Öte yandan GPT-4o, bunun somut bir nesne ya da belirli bir insan tipi olmadığına dair DAHA FAZLA gerekçe belirledi.

Bütün bunlar, istemi daha belirgin hale getirmemiz gerektiğini, dolayısıyla bu durumda beraberliğe yol açtığını gösteriyor.

Bulmaca 3 – Matematiksel akıl yürütme

Bir formülle hesaplanabilen, iyi bilinen bir görsel akıl yürütme bulmacasına geçelim. Bu yüzden her iki modele de girdi olarak aşağıdaki istemle birlikte aşağıdaki şekli verdim.

Aşağıdaki 3 dairenin hepsinin çevrelerinde düz çizgilerle birbirine bağlanan mavi noktalar var. İlk daire, onu iki bölgeye ayıran iki mavi noktaya sahiptir. Çevresinde herhangi bir yerde 7 nokta bulunan bir daire verildiğinde, dairenin bölünebileceği maksimum bölge sayısı nedir?

Bu durumda GPT-4o, 57 gibi hızlı bir şekilde doğru cevabı buldu. Ancak Claude 3.5, 64 cevabını verdi ki bu pek de doğru değil. Her iki model de cevaba neden ulaştıklarına dair mantıksal akıl yürütme adımları verdi. GPT-4o'daki matematik formüllerinin formatı Claude 3.5'in formatına tercih edilir.

Kararımız

Testlerimize dayanarak, ister saf destekli kod ister GUI kodu olsun, kod oluşturma görevlerinde kazananın Claude 3.5 sonnet olduğu sonucuna vardık. Mantıksal akıl yürütme görevleriyle yakın bir bağdır. Ancak konu matematiksel muhakeme görevlerine geldiğinde, GPT-4o hâlâ başı çekiyor ve Claude henüz yetişemiyor.

Üretim hızı açısından Claude, metin veya kodu GPT-4o'dan çok daha hızlı ürettiği için şüphesiz kazanandır. Bizim göz atın Metin oluşturma hızını gerçek zamanlı olarak karşılaştırmak istiyorsanız.

Haykırmak

Bu makaleyi beğendiyseniz neden beni takip etmiyorsunuz? Haftanın her günü en iyi yapay zeka laboratuvarlarından araştırma güncellemelerini nerede paylaşıyorum?

Ayrıca lütfen bana abone olun AI kavramlarını ve makalelerini görsel olarak açıkladığım yer.