A Anthropic, empresa por trás da série de modelos Claude, lançou o Claude 3.5 Sonnet. Chega em um momento em que todos aceitamos o GPT-4o como o melhor modelo padrão para a maioria das tarefas como raciocínio, resumo, etc. A Anthropic faz a ousada afirmação de que seu modelo estabelece o novo “padrão da indústria” para inteligência. O modelo apresenta desempenho de última geração em 4 de 5 tarefas de visão, de acordo com os resultados publicados.
Companies Mentioned
A Anthropic, empresa por trás da série de modelos Claude, lançou o Claude 3.5 Sonnet. Chega em um momento em que todos nós aceitamos o GPT-4o como o melhor modelo padrão para a maioria das tarefas como raciocínio, resumo, etc. A Anthropic faz a ousada afirmação de que seu modelo estabelece o novo “padrão da indústria” para inteligência.
Além disso, está disponível gratuitamente em claude.ai se você quiser experimentar. Então, ficamos entusiasmados e queríamos testar o modelo e compará-lo com o GPT-4o. Este artigo começa com uma visão geral dos recursos lançados com Claude 3.5 e os testa em relação ao GPT-4o na geração de código, bem como em tarefas de raciocínio lógico e matemático.
Principais características
O modelo vem com três características principais ou novidades que os fazem afirmar que supera o GPT-4o na maioria das tarefas.
Tarefas de visãoaprimoradas . O modelo apresenta desempenho de última geração em 4 de 5 tarefas de visão, de acordo com os resultados publicados abaixo.
Velocidade 2x. Comparado ao GPT-4o ou seus próprios antecessores como Claude Opus, Claude Sonnet possui velocidade de geração 2X.
Artefatos — uma nova UI para tarefas como geração de código e animação.
Vamos nos aprofundar nos recursos e compará-los com o rei dos LLMs de longa data, o GPT-4o.
Começando
Para começar, precisamos estar logados no site claude.ai e ativar o recurso de artefatos. Como é um recurso experimental, precisamos habilitá-lo. Temos que acessar a visualização do recurso e ativar os artefatos, conforme mostrado abaixo.
Uma vez habilitado, o modelo mostrará uma janela dedicada ao lado para tarefas que precisam delas, como codificação ou animações.
Tarefas de Visão – Raciocínio Visual
Para testar a capacidade aprimorada de raciocínio visual, carregamos os dois gráficos abaixo no modelo de Claude Sonnet e fazemos a pergunta: “O que você pode deduzir desses dados?”.
Gráficos como imagens para testar o raciocínio visual A resposta de Claude Sonnet foi surpreendente. Resumiu com precisão o progresso da aprendizagem profunda, dizendo: “Estes dados ilustram o rápido progresso nas arquiteturas de aprendizagem profunda e no dimensionamento de modelos, mostrando uma tendência para modelos maiores e mais poderosos”. Também recebemos uma resposta semelhante do GPT-4o. Assim, para entender melhor qual é o melhor, começamos a comparar os dois modelos sistematicamente em quatro tarefas - codificação, codificação com UI, raciocínio lógico e raciocínio matemático.
Versus GPT-4o – Qual é o melhor?
Agora que vimos uma visão geral, vamos nos aprofundar e levar o modelo para um passeio. Vamos testar a geração de código, raciocínio lógico e raciocínio matemático.
Geração de código
Para geração de código, pedirei a ambos os modelos que gerem código para jogar o conhecido jogo Sudoku. Acionei ambos os modelos com o prompt exato, “escreva o código python para jogar o jogo sudoku”. Com este prompt, tanto o Claude 3.5 quanto o GPT-4o geram código com o qual podemos interagir apenas no prompt de comando. Isso é esperado, pois não especificamos como gerar o código da UI. Algumas observações iniciais:
Ambos os modelos produzem código sem erros.
Claude gera código com recurso de escolha do nível de dificuldade. Mas o GPT-4o não!
Com a velocidade de geração de código, Claude vence o GPT-4o sem dúvida
GPT-4o tende a gerar código com pacotes desnecessários
Geração de código com UI
Como interagir com o prompt de comando não é para todos, eu queria que os modelos gerassem código com UI. Para isso, modifiquei o prompt para “escrever código para jogar um jogo de sudoku”. Desta vez, removi “python” do prompt porque achei que ele iria solicitar que produzisse apenas o código de back-end. Como esperado, Claude 3.5 produziu uma UI funcional desta vez, conforme abaixo. Embora a IU não fosse totalmente robusta e atraente, era funcional.
Mas o GPT-4o, infelizmente, não produziu uma UI semelhante. Ainda gerava código com um prompt de comando interativo.
Quebra-cabeça 1 — Raciocínio Lógico
Para o primeiro quebra-cabeça, fiz a pergunta abaixo:
Jane foi visitar Jill. Jill é a única filha da única filha do único marido da sogra do marido de Jane. qual é a relação de Jane com Jill?
Ambos os modelos apresentaram uma sequência de etapas de raciocínio e responderam corretamente à questão. Então tem que haver empate entre Claude 3.5 e GPT-4o neste caso.
Quebra-cabeça 2 — Raciocínio Lógico
Para o segundo quebra-cabeça, fiz a pergunta abaixo:
Qual das palavras é menos parecida com as outras. A diferença não tem nada a ver com vogais, consoantes ou sílabas. MAIS, PARES, ETCHERS, ZIPPER\
Para isso, ambos os modelos apresentaram diferentes etapas de raciocínio lógico para chegar a respostas diferentes. Claude raciocinou que zíper é a única palavra que pode funcionar tanto como substantivo quanto como verbo. Mas outros são apenas substantivos ou adjetivos. Então, identificou o ZIPPER como a resposta. O GPT-4o, por outro lado, identificou MAIS o raciocínio de que não se trata de um objeto concreto ou de um tipo específico de pessoa. Tudo isso indica que precisamos tornar o prompt mais específico, levando a um empate neste caso.
Quebra-cabeça 3 — Raciocínio matemático
Vamos passar para um conhecido quebra-cabeça de raciocínio visual que pode ser calculado por uma fórmula. Então forneci a figura abaixo junto com o prompt abaixo como entrada para ambos os modelos.
Todos os 3 círculos abaixo têm pontos azuis em sua circunferência que são conectados por linhas retas. O primeiro círculo possui dois pontos azuis que o separam em duas regiões. Dado um círculo com 7 pontos colocados em qualquer lugar da sua circunferência, qual é o número máximo de regiões em que o círculo pode ser dividido?
Nesse caso, o GPT-4o deu a resposta certa de 57. Mas Claude 3.5 deu a resposta de 64, que não é totalmente correta. Ambos os modelos forneceram etapas de raciocínio lógico sobre por que chegaram à resposta. A formatação das fórmulas matemáticas no GPT-4o é preferível à do Claude 3.5.
Nosso veredicto
Com base em nossos testes, concluímos que o vencedor nas tarefas de geração de código, seja código de suporte puro ou código GUI, é o soneto Claude 3.5. É um vínculo estreito com tarefas de raciocínio lógico. Mas quando se trata de tarefas de raciocínio matemático, o GPT-4o ainda lidera e Claude ainda não o alcançou.
Em termos de velocidade de geração, Claude é sem dúvida o vencedor, pois produz texto ou código muito mais rápido que o GPT-4o. Confira nosso se você deseja comparar a velocidade de geração de texto em tempo real.
Gritar
Se você gostou deste artigo, por que não me seguir noonde compartilho atualizações de pesquisas dos principais laboratórios de IA todos os dias da semana?
Também por favor assine meuonde explico conceitos e artigos de IA visualmente.