44,797 lectures

Claude 3.5 Sonnet vs GPT-4o — Une critique honnête

par Shrinivasan Sankar5m2024/07/02

Trop long; Pour lire

Anthropic, la société à l'origine de la série de modèles Claude, a lancé Claude 3.5 Sonnet. Cela arrive à un moment où nous avons tous accepté GPT-4o comme le meilleur modèle par défaut pour la majorité des tâches telles que le raisonnement, la synthèse, etc. Anthropic affirme audacieusement que son modèle établit la nouvelle « norme de l'industrie » en matière d'intelligence. Le modèle offre des performances de pointe sur 4 tâches de vision sur 5, selon les résultats publiés.

Companies Mentioned

featured image - Claude 3.5 Sonnet vs GPT-4o — Une critique honnête

Anthropic, la société à l'origine de la série de modèles Claude, a lancé Claude 3.5 Sonnet. Cela arrive à un moment où nous avons tous accepté que GPT-4o soit le meilleur modèle par défaut pour la majorité des tâches telles que le raisonnement, la synthèse, etc. Anthropic affirme audacieusement que son modèle établit la nouvelle « norme de l'industrie » en matière d'intelligence.

De plus, il est disponible gratuitement sur claude.ai si vous souhaitez l'essayer. Nous étions donc enthousiasmés et voulions tester le modèle et le comparer à GPT-4o. Cet article commence par un aperçu des fonctionnalités publiées avec Claude 3.5 et les teste par rapport à GPT-4o sur la génération de code, ainsi que sur les tâches de raisonnement logique et mathématique.

Caractéristiques principales

Le modèle est livré avec trois fonctionnalités ou nouveautés principales qui leur font affirmer qu'il bat GPT-4o dans la plupart des tâches.

Tâches de vision améliorées . Le modèle offre des performances de pointe sur 4 tâches de vision sur 5, selon les résultats publiés ci-dessous.

Vitesse 2x. Comparé à GPT-4o ou à ses propres prédécesseurs comme Claude Opus, Claude Sonnet se vante d'une vitesse de génération 2X.
Artefacts : une nouvelle interface utilisateur pour des tâches telles que la génération de code et l'animation.

Approfondissons les fonctionnalités et comparons-les avec le roi des LLM de longue date, GPT-4o.

Commencer

Pour commencer, nous devons être connectés au site claude.ai et activer la fonction artefacts. Comme il s'agit d'une fonctionnalité expérimentale, nous devons l'activer. Nous devons passer sous l'aperçu des fonctionnalités et activer les artefacts à partir de là, comme indiqué ci-dessous.

Une fois activé, le modèle affichera une fenêtre dédiée sur le côté pour les tâches qui en ont besoin comme le codage ou les animations.

Tâches de vision – Raisonnement visuel

Pour tester la capacité de raisonnement visuel améliorée, nous avons téléchargé les deux graphiques ci-dessous dans le modèle Claude Sonnet et posé la question : « Que pouvez-vous déduire de ces données ? »

Des tracés sous forme d'images pour tester le raisonnement visuel La réponse de Claude Sonnet a été stupéfiante. Il résumait avec précision les progrès de l'apprentissage profond en disant : « Ces données illustrent des progrès rapides dans les architectures d'apprentissage profond et la mise à l'échelle des modèles, montrant une tendance vers des modèles plus grands et plus puissants ». Nous avons également reçu une réponse similaire de GPT-4o. Ainsi, pour mieux comprendre lequel est le meilleur, nous avons commencé à comparer systématiquement les deux modèles dans quatre tâches : codage, codage avec interface utilisateur, raisonnement logique et raisonnement mathématique.

Par rapport à GPT-4o – Quel est le meilleur ?

Maintenant que nous avons vu un aperçu, approfondissons et prenons le modèle pour un tour. Testons la génération de code, le raisonnement logique et le raisonnement mathématique.

Génération de code

Pour la génération de code, je vais demander aux deux modèles de générer du code pour jouer au célèbre jeu de Sudoku. J'ai invité les deux modèles avec l'invite exacte : "écrivez du code python pour jouer au jeu de sudoku". Avec cette invite, Claude 3.5 et GPT-4o génèrent du code avec lequel nous pouvons interagir uniquement à partir de l'invite de commande. Ceci est attendu car nous n’avons pas précisé comment générer le code de l’interface utilisateur. Quelques premières observations :

Les deux modèles produisent du code sans bug.
Claude génère du code avec la fonctionnalité permettant de choisir le niveau de difficulté. Mais ce n’est pas le cas de GPT-4o !
Avec la vitesse de génération de code, Claude bat sans aucun doute GPT-4o
GPT-4o a tendance à générer du code avec des packages inutiles

Génération de code avec l'interface utilisateur

Comme l'interaction avec l'invite de commande n'est pas pour tout le monde, je voulais que les modèles génèrent du code avec l'interface utilisateur. Pour cela, j'ai modifié l'invite en « écrire du code pour jouer à un jeu de sudoku ». Cette fois, j'ai supprimé « python » de l'invite car je pensais que cela l'inviterait à produire uniquement le code backend. Comme prévu, Claude 3.5 a produit cette fois une interface utilisateur fonctionnelle comme ci-dessous. Même si l’interface utilisateur n’était pas complètement robuste et attrayante, elle était fonctionnelle.

Mais GPT-4o n’a malheureusement pas produit une interface utilisateur similaire. Il générait toujours du code avec une invite de commande interactive.

Puzzle 1 — Raisonnement logique

Pour le premier casse-tête, j'ai posé la question ci-dessous :

Jane est allée rendre visite à Jill. Jill est la fille unique de la belle-mère du mari unique de Jane. quelle relation y a-t-il entre Jane et Jill ?

Les deux modèles ont proposé une séquence d’étapes de raisonnement et ont répondu correctement à la question. Il doit donc y avoir égalité entre Claude 3.5 et GPT-4o dans ce cas.

Puzzle 2 — Raisonnement logique

Pour le deuxième casse-tête, j'ai posé la question ci-dessous :

Lequel des mots ressemble le moins aux autres. La différence n’a rien à voir avec les voyelles, les consonnes ou les syllabes. PLUS, PAIRES, GRAVEURS, ZIPPER\

Pour cela, les deux modèles ont proposé différentes étapes de raisonnement logique pour aboutir à des réponses différentes. Claude a estimé que fermeture éclair est le seul mot qui peut fonctionner à la fois comme nom et comme verbe. Mais d’autres ne sont que des noms ou des adjectifs. Ainsi, il a identifié ZIPPER comme la réponse. GPT-4o, en revanche, a identifié PLUS de raisonnements selon lesquels il ne s'agit pas d'un objet concret ou d'un type spécifique de personne. Tout cela indique que nous devons rendre l'invite plus spécifique, conduisant ainsi à une égalité dans ce cas.

Énigme 3 — Raisonnement mathématique

Passons à un casse-tête de raisonnement visuel bien connu qui peut être calculé par une formule. J'ai donc donné la figure ci-dessous ainsi que l'invite ci-dessous comme entrée pour les deux modèles.

Les 3 cercles ci-dessous ont tous des points bleus sur leur circonférence qui sont reliés par des lignes droites. Le premier cercle comporte deux points bleus qui le séparent en deux régions. Étant donné un cercle avec 7 points placés n'importe où sur sa circonférence, quel est le nombre maximum de régions en lesquelles le cercle peut être divisé ?

Dans ce cas, GPT-4o a donné la bonne réponse de 57. Mais Claude 3.5 a donné la réponse de 64 qui n'est pas tout à fait correcte. Les deux modèles ont donné des étapes de raisonnement logique pour expliquer pourquoi ils sont arrivés à la réponse. Le formatage des formules mathématiques en GPT-4o est préférable à celui de Claude 3.5.

Notre verdict

Sur la base de nos tests, nous concluons que le gagnant pour les tâches de génération de code, qu'il s'agisse de code à support pur ou de code GUI, est Claude 3.5 sonnet. C'est un lien étroit avec les tâches de raisonnement logique. Mais lorsqu’il s’agit de tâches de raisonnement mathématique, GPT-4o est toujours en tête et Claude n’a pas encore rattrapé son retard.

En termes de vitesse de génération, Claude est sans aucun doute le gagnant car il produit du texte ou du code beaucoup plus rapidement que GPT-4o. Consultez notre si vous souhaitez comparer la vitesse de génération de texte en temps réel.

Crier

Si vous avez aimé cet article, pourquoi ne pas me suivre où je partage les mises à jour des recherches des meilleurs laboratoires d'IA chaque jour de la semaine ?

Abonnez-vous également à mon où j'explique visuellement les concepts et les articles sur l'IA.