Anthropic, компания, создавшая серию моделей Claude, выпустила Claude 3.5 Sonnet. Это происходит в то время, когда мы все приняли GPT-4o в качестве лучшей модели по умолчанию для большинства задач, таких как рассуждение, обобщение и т. д. Anthropic смело заявляет, что их модель устанавливает новый «отраслевой стандарт» интеллекта. Согласно опубликованным результатам, модель может похвастаться высочайшей производительностью в 4 из 5 задач машинного зрения.
Companies Mentioned
Anthropic, компания, создавшая серию моделей Claude, выпустила Claude 3.5 Sonnet. Это происходит в то время, когда мы все приняли GPT-4o в качестве лучшей модели по умолчанию для большинства задач, таких как рассуждение, обобщение и т. д. Anthropic смело заявляет, что их модель устанавливает новый «отраслевой стандарт» интеллекта.
Кроме того, он доступен бесплатно на claude.ai, если вы хотите его попробовать. Итак, мы загорелись желанием протестировать модель и сравнить ее с GPT-4o. Эта статья начинается с обзора функций, реализованных в Claude 3.5, и сравнивает их с GPT-4o при генерации кода, а также при решении задач логического и математического рассуждения.
Основные характеристики
Модель имеет три основные особенности или новинки, которые позволяют утверждать, что она превосходит GPT-4o в большинстве задач.
Улучшенозрение задач. Согласно опубликованным ниже результатам, модель может похвастаться высочайшей производительностью при выполнении 4 из 5 задач машинного зрения.
2х скорость. По сравнению с GPT-4o или его предшественниками, такими как Claude Opus, Claude Sonnet может похвастаться 2-кратной скоростью генерации.
Артефакты — новый пользовательский интерфейс для таких задач, как генерация кода и анимация.
Давайте углубимся в особенности и сравним их с давно правящим королем LLM, GPT-4o.
Начиная
Чтобы начать, нам нужно войти на сайт claude.ai и включить функцию артефактов. Поскольку это экспериментальная функция, нам необходимо ее включить. Нам нужно перейти в режим предварительного просмотра функций и включить артефакты, как показано ниже.
После включения модель отобразит отдельное окно сбоку для задач, требующих их, таких как кодирование или анимация.
Задачи на видение — визуальное мышление
Чтобы проверить улучшенные способности визуального мышления, мы загрузили два приведенных ниже графика в модель Клода Сонета и задали вопрос: «Что вы можете сделать из этих данных?».
Графики в виде изображений для проверки визуального мышления. Реакция Клода Сонета была ошеломляющей. Он точно резюмировал прогресс глубокого обучения, заявив: «Эти данные иллюстрируют быстрый прогресс в архитектурах глубокого обучения и масштабировании моделей, демонстрируя тенденцию к созданию более крупных и мощных моделей». Аналогичный ответ мы получили и от GPT-4o. Итак, чтобы лучше понять, какая из них лучше, мы начали систематически сравнивать обе модели по четырем задачам — кодирование, кодирование с пользовательским интерфейсом, логические рассуждения и математические рассуждения.
Против GPT-4o — что лучше?
Теперь, когда мы увидели обзор, давайте углубимся и испытаем модель. Давайте проверим генерацию кода, логические и математические рассуждения.
Генерация кода
Для генерации кода я попрошу обе модели сгенерировать код для игры в известную игру судоку. Я предложил обеим моделям точную подсказку: «Напишите код Python, чтобы сыграть в судоку». С помощью этого приглашения и Claude 3.5, и GPT-4o генерируют код, с которым мы можем взаимодействовать только из командной строки. Это ожидаемо, поскольку мы не указали, как генерировать код пользовательского интерфейса. Некоторые первоначальные наблюдения:
Обе модели создают код без ошибок.
Клод генерирует код с возможностью выбора уровня сложности. Но GPT-4o этого не делает!
По скорости генерации кода Клод без сомнения превосходит GPT-4o.
GPT-4o имеет тенденцию генерировать код с ненужными пакетами.
Генерация кода с пользовательским интерфейсом
Поскольку взаимодействие с командной строкой доступно не всем, я хотел, чтобы модели генерировали код с пользовательским интерфейсом. Для этого я изменил подсказку на «напишите код для игры в судоку». На этот раз я удалил слово «python» из приглашения, так как чувствовал, что оно побудит его создать только внутренний код. Как и ожидалось, на этот раз Claude 3.5 создал функциональный пользовательский интерфейс, как показано ниже. Хотя пользовательский интерфейс не был полностью надежным и привлекательным, он был функциональным.
Но GPT-4o, к сожалению, не создал подобного пользовательского интерфейса. Он по-прежнему генерировал код с помощью интерактивной командной строки.
Головоломка 1 — Логическое рассуждение
Для первой головоломки я задал следующий вопрос:
Джейн пошла навестить Джилл. Джилл - единственная дочь единственной дочери свекрови единственного мужа Джейн. какое отношение Джейн имеет к Джилл?
Обе модели придумали последовательность рассуждений и правильно ответили на вопрос. Так что в данном случае между Claude 3.5 и GPT-4o должна быть ничья.
Головоломка 2 — Логическое рассуждение
Для второй головоломки я задал следующий вопрос:
Какое из слов меньше всего похоже на остальные. Разница не имеет ничего общего с гласными, согласными или слогами. БОЛЬШЕ, ПАРЫ, ГРАВИТ, МОЛНИЯ\
Для этого обе модели использовали разные логические этапы рассуждения, чтобы прийти к разным ответам. Клод пришел к выводу, что «молния» — единственное слово, которое может функционировать как существительное, так и глагол. Но другие являются либо просто существительными, либо прилагательными. Итак, он определил ZIPPER как ответ. GPT-4o, с другой стороны, выявил БОЛЬШЕ аргументов в пользу того, что это не конкретный объект или конкретный тип человека. Все это указывает на то, что нам нужно сделать подсказку более конкретной, что в данном случае приведет к ничьей.
Головоломка 3 — Математические рассуждения
Давайте перейдем к известной головоломке на визуальное мышление, которую можно вычислить по формуле. Поэтому я предоставил приведенный ниже рисунок вместе с приведенной ниже подсказкой в качестве входных данных для обеих моделей.
Все три круга ниже имеют синие точки на окружности, которые соединены прямыми линиями. На первом круге есть две синие точки, разделяющие его на две области. На какое максимальное количество частей можно разделить круг, на котором есть круг с семью точками?
В этом случае GPT-4o дал правильный ответ — 57. Но Клод 3.5 дал ответ 64, что не совсем правильно. Обе модели содержали логические аргументы в пользу того, почему они пришли к ответу. Форматирование математических формул в GPT-4o предпочтительнее, чем в Claude 3.5.
Наш вердикт
На основании наших тестов мы пришли к выводу, что победителем в задачах генерации кода, будь то чистый код или код графического интерфейса, является сонет Claude 3.5. Это тесная связь с задачами на логическое рассуждение. Но когда дело доходит до математических задач, GPT-4o по-прежнему лидирует, а Клоду еще предстоит догнать его.
С точки зрения скорости генерации Claude, без сомнения, является победителем, поскольку он генерирует текст или код намного быстрее, чем GPT-4o. Ознакомьтесь с нашим если вы хотите сравнить скорость генерации текста в реальном времени.
Выкрикивать
Если вам понравилась эта статья, почему бы не подписаться на менягде я каждый день недели делюсь обновлениями исследований ведущих лабораторий искусственного интеллекта?
Также прошу подписаться на моюгде я наглядно объясняю концепции и статьи ИИ.