45,938 測定値

Claude 3.5 Sonnet vs GPT-4o — 正直なレビュー

に Shrinivasan Sankar5m2024/07/02

長すぎる; 読むには

Claude シリーズのモデルを開発している Anthropic 社が、Claude 3.5 Sonnet をリリースしました。これは、推論、要約などのほとんどのタスクで GPT-4o がデフォルトのベストモデルであると誰もが認めるようになった時期に登場しました。Anthropic 社は、自社のモデルがインテリジェンスの新しい「業界標準」を設定すると大胆に主張しています。発表された結果によると、このモデルは 5 つの視覚タスクのうち 4 つで最先端のパフォーマンスを誇っています。

Companies Mentioned

featured image - Claude 3.5 Sonnet vs GPT-4o — 正直なレビュー

さらに、試してみたい場合は、claude.ai で無料で入手できます。そこで、私たちは興奮して、モデルをテストし、GPT-4o と比較したいと考えました。この記事では、Claude 3.5 でリリースされた機能の概要から始め、コード生成、論理的および数学的推論タスクで GPT-4o と比較してテストします。

主な特徴

このモデルには、ほとんどのタスクで GPT-4o を上回ると主張する 3 つの主な機能または新機能が搭載されています。

視覚タスクの改善。このモデルは、以下に公開された結果によると、5 つの視覚タスクのうち 4 つで最先端のパフォーマンスを誇ります。

2 倍の速度。GPT -4o やその前身である Claude Opus と比較すると、Claude Sonnet は 2 倍の世代速度を誇ります。
アーティファクト— コード生成やアニメーションなどのタスク用の新しい UI。

機能を詳しく見ていき、長年 LLM の王者として君臨してきた GPT-4o と比較してみましょう。

はじめる

開始するには、claude.ai Web サイトにログインし、アーティファクト機能を有効にする必要があります。これは実験的な機能なので、有効にする必要があります。以下に示すように、機能プレビューに移動して、そこからアーティファクトを有効にする必要があります。

有効にすると、コーディングやアニメーションなど、必要なタスク用の専用ウィンドウがモデルの横に表示されます。

視覚タスク - 視覚的推論

視覚的推論能力の向上をテストするために、以下の 2 つのプロットを Claude Sonnet モデルにアップロードし、「このデータから何がわかりますか?」という質問をしました。

視覚的推論をテストするための画像としてのプロット

クロード・ソネット氏からの反応は驚くべきものでした。「このデータは、ディープラーニングのアーキテクチャとモデルのスケーリングが急速に進歩していることを示しており、より大規模で強力なモデルへの傾向を示しています」と述べ、ディープラーニングの進歩を正確に要約していました。GPT-4o からも同様の反応がありました。そこで、どちらが優れているかをより深く理解するために、コーディング、UI を使用したコーディング、論理的推論、数学的推論の 4 つのタスクで両方のモデルを体系的に比較し始めました。

GPT-4o と比較してどちらが優れているでしょうか?

概要を確認したので、モデルを詳しく調べて実際に試してみましょう。コード生成、論理的推論、数学的推論をテストしてみましょう。

コード生成

コード生成では、両方のモデルに、よく知られている数独ゲームをプレイするためのコードを生成するように依頼します。両方のモデルに、「数独ゲームをプレイするための Python コードを記述してください」という正確なプロンプトを出しました。このプロンプトでは、Claude 3.5 と GPT-4o の両方が、コマンドプロンプトからのみ操作できるコードを生成します。UI コードの生成方法を指定しなかったため、これは予想どおりです。いくつかの初期の観察結果:

どちらのモデルもバグのないコードを生成します。
Claude は難易度を選択する機能を備えたコードを生成します。しかし、GPT-4o はそうしません。
コード生成のスピードでは、Claude は間違いなく GPT-4o に勝っています。
GPT-4oは不要なパッケージを含むコードを生成する傾向がある

UI を使用したコード生成

コマンドプロンプトの操作は誰でもできるわけではないので、モデルで UI 付きのコードを生成するようにしたいと考えました。このため、プロンプトを「数独ゲームをプレイするためのコードを記述してください」に変更しました。今回は、バックエンドコードのみを生成するようにプロンプトに指示すると感じたため、プロンプトから「python」を削除しました。予想どおり、Claude 3.5 は今回、以下のように機能的な UI を生成しました。UI は完全に堅牢で魅力的ではありませんでしたが、機能的でした。

しかし、残念ながら、GPT-4o は同様の UI を生成しませんでした。対話型のコマンドプロンプトを使用してコードを生成しました。

パズル 1 — 論理的推論

最初のパズルでは、以下の質問をしました。

ジェーンはジルを訪ねに行きました。ジルはジェーンの唯一の夫の義母の唯一の夫の唯一の娘の唯一の娘です。ジェーンとジルの関係はどのようなものですか?

どちらのモデルも一連の推論手順を導き出し、質問に正しく答えました。したがって、この場合は Claude 3.5 と GPT-4o が同点になります。

パズル 2 — 論理的推論

2 番目のパズルでは、以下の質問をしました。

どの単語が他の単語と最も似ていないか。違いは母音、子音、音節とは関係ありません。MORE、PAIRS、ETCHERS、ZIPPER\

これに対して、両方のモデルは異なる論理的推論手順を考案し、異なる答えを導き出しました。クロードは、ジッパーは名詞としても動詞としても機能できる唯一の単語であると推論しました。しかし、他の単語は単なる名詞か形容詞です。そのため、ジッパーが答えであると特定しました。一方、GPT-4o は、それが具体的な物体でも特定のタイプの人物でもないという MORE 推論を特定しました。

これらすべては、プロンプトをより具体的にする必要があることを示しており、この場合は同点になります。

パズル 3 — 数学的推論

数式で計算できる、よく知られている視覚的推論パズルに移りましょう。そこで、下の図と下のプロンプトを両方のモデルへの入力として与えました。

以下の 3 つの円の円周上には青い点があり、直線で結ばれています。最初の円には 2 つの青い点があり、円周を 2 つの領域に分けます。円周上の任意の場所に 7 つの点がある円の場合、円を分割できる領域の最大数はいくつですか。

この場合、GPT-4o は 57 という正解を導き出しました。しかし、Claude 3.5 は 64 という正解を導き出しましたが、これはあまり正確ではありません。どちらのモデルも、なぜその答えにたどり着いたかについて論理的な推論手順を示しました。GPT-4o の数式のフォーマットは、Claude 3.5 のものよりも優れています。

私たちの評決

私たちのテストに基づいて、コード生成タスクの勝者は、それが純粋なバックコードであれ GUI コードであれ、Claude 3.5 sonnet であると結論付けました。論理的推論タスクでは僅差です。しかし、数学的推論タスクに関しては、GPT-4o が依然としてリードしており、Claude はまだ追いついていません。

生成速度の点では、ClaudeはGPT-4oよりもはるかに速くテキストやコードを生成するので、間違いなく勝者です。テキスト生成の速度をリアルタイムで比較したい場合。