45,938 讀數

Claude 3.5 Sonnet 与 GPT-4o 的对比——诚实的评价

经过 Shrinivasan Sankar5m2024/07/02

太長; 讀書

Claude 系列模型背后的公司 Anthropic 发布了 Claude 3.5 Sonnet。此时我们都已经接受 GPT-4o 是推理、总结等大多数任务的默认最佳模型。Anthropic 大胆宣称他们的模型为智能设定了新的“行业标准”。根据他们公布的结果，该模型在 5 项视觉任务中的 4 项上拥有最先进的性能。

Companies Mentioned

featured image - Claude 3.5 Sonnet 与 GPT-4o 的对比——诚实的评价

Claude 系列模型背后的公司 Anthropic 发布了 Claude 3.5 Sonnet。此时我们都已经接受 GPT-4o 是推理、总结等大多数任务的默认最佳模型。Anthropic 大胆宣称，他们的模型为智能设定了新的“行业标准”。

此外，如果您想试用，可以在 claude.ai 上免费获取。因此，我们非常兴奋，想要测试该模型并将其与 GPT-4o 进行比较。本文首先概述了 Claude 3.5 发布的新功能，并在代码生成以及逻辑和数学推理任务上将其与 GPT-4o 进行了测试。

主要特点

该模型具有三个主要特点或新颖性，使得他们声称它在大多数任务上击败了 GPT-4o。

改进的视觉任务。根据以下公布的结果，该模型在 5 项视觉任务中的 4 项中拥有最先进的性能。

2 倍速度。与 GPT-4o 或 Claude Opus 等前辈相比，Claude Sonnet 拥有 2 倍的生成速度。
Artifacts——用于代码生成和动画等任务的新 UI。

让我们深入了解这些功能，并将它们与长期占据 LLM 之王的 GPT-4o 进行比较。

入门

首先，我们必须登录 claude.ai 网站并启用工件功能。由于这是一项实验性功能，我们需要启用它。我们必须进入功能预览并从那里启用工件，如下所示。

一旦启用，模型将在侧面显示一个专用窗口，用于执行需要它们的任务，如编码或动画。

视觉任务——视觉推理

为了测试改进的视觉推理能力，我们将下面两个图上传到 Claude Sonnet 模型并提出问题：“你能从这些数据中得出什么结论？”。

用于测试视觉推理的图像绘图

Claude Sonnet 的回应令人震惊。它精确地总结了深度学习的进展，说：“这些数据表明深度学习架构和模型扩展的快速进步，显示出向更大、更强大的模型发展的趋势”。我们也从 GPT-4o 那里得到了类似的回应。因此，为了更好地了解哪个更好，我们开始在四个任务中系统地比较这两个模型——编码、带 UI 的编码、逻辑推理和数学推理。

与 GPT-4o 相比 — — 哪个最好？

现在我们已经了解了概述，让我们深入了解并试用该模型。让我们测试代码生成、逻辑推理和数学推理。

代码生成

对于代码生成，我将要求两个模型生成用于玩著名数独游戏的代码。我给这两个模型都提供了确切的提示，“编写 Python 代码来玩数独游戏”。有了这个提示，Claude 3.5 和 GPT-4o 都生成了我们只能从命令提示符交互的代码。这是意料之中的，因为我们没有指定如何生成 UI 代码。一些初步观察：

两种模型都能生成无错误的代码。
Claude 生成的代码具有选择难度级别的功能。但 GPT-4o 没有！
就代码生成速度而言，Claude 毫无疑问击败了 GPT-4o
GPT-4o 倾向于生成带有不必要包的代码

使用 UI 生成代码

由于与命令提示符交互并不适合所有人，我希望模型能够生成带有 UI 的代码。为此，我将提示修改为“编写代码来玩数独游戏”。这次，我从提示中删除了“python”，因为我觉得它会提示它只生成后端代码。正如预期的那样，Claude 3.5 这次确实生成了一个功能性 UI，如下所示。虽然 UI 并不完全强大和吸引人，但它还是很实用的。