45,938 판독값

Claude 3.5 Sonnet 대 GPT-4o — 정직한 리뷰

~에 의해 Shrinivasan Sankar5m2024/07/02

너무 오래; 읽다

Claude 시리즈 모델을 제작한 회사인 Anthropic은 Claude 3.5 Sonnet을 출시했습니다. 이는 우리 모두가 GPT-4o를 추론, 요약 등과 같은 대부분의 작업에 대한 기본 최고의 모델로 받아들인 시점입니다. Anthropic은 그들의 모델이 지능에 대한 새로운 "산업 표준"을 설정한다는 대담한 주장을 합니다. 이 모델은 게시된 결과에 따라 비전 작업 5개 중 4개에서 최첨단 성능을 자랑합니다.

Companies Mentioned

featured image - Claude 3.5 Sonnet 대 GPT-4o — 정직한 리뷰

Claude 시리즈 모델을 제작한 회사인 Anthropic은 Claude 3.5 Sonnet을 출시했습니다. 이는 우리 모두가 GPT-4o를 추론, 요약 등과 같은 대부분의 작업에 대한 기본 최고의 모델로 받아들인 시점입니다. Anthropic은 그들의 모델이 지능에 대한 새로운 "산업 표준"을 설정한다는 대담한 주장을 합니다.

또한, 한번 사용해 보고 싶다면 clude.ai에서 무료로 사용할 수 있습니다. 그래서 우리는 흥분하여 모델을 테스트하고 GPT-4o와 비교하고 싶었습니다. 이 기사는 Claude 3.5와 함께 출시된 기능의 개요로 시작하여 코드 생성 및 논리적, 수학적 추론 작업에 대해 GPT-4o에 대해 테스트합니다.

주요 특징

이 모델에는 대부분의 작업에서 GPT-4o를 능가한다고 주장하는 세 가지 주요 기능 또는 참신함이 포함되어 있습니다.

향상된 비전 작업. 이 모델은 아래 게시된 결과에 따라 비전 작업 5개 중 4개에서 최첨단 성능을 자랑합니다.

2배속. GPT-4o 또는 Claude Opus와 같은 이전 제품과 비교하여 Claude Sonnet은 2X 세대 속도를 자랑합니다.
아티팩트 — 코드 생성 및 애니메이션과 같은 작업을 위한 새로운 UI입니다.

기능에 대해 더 자세히 알아보고 오랫동안 군림해 온 LLM의 왕인 GPT-4o와 비교해 보겠습니다.

시작하기

시작하려면 clude.ai 웹사이트에 로그인하고 아티팩트 기능을 활성화해야 합니다. 실험적인 기능이므로 활성화해야 합니다. 아래와 같이 기능 미리보기로 이동하여 거기에서 아티팩트를 활성화해야 합니다.

활성화되면 모델은 코딩이나 애니메이션과 같이 필요한 작업을 위한 전용 창을 측면에 표시합니다.

비전 작업 - 시각적 추론

향상된 시각적 추론 능력을 테스트하기 위해 아래 두 개의 플롯을 Claude Sonnet 모델에 업로드하고 "이 데이터에서 무엇을 알 수 있습니까?"라는 질문을 했습니다.

시각적 추론 테스트를 위한 이미지로 플롯

Claude Sonnet의 반응은 놀라웠습니다. “이 데이터는 딥 러닝 아키텍처와 모델 확장의 급속한 발전을 보여주며 더 크고 강력한 모델을 향한 추세를 보여줍니다.”라고 딥 러닝 진행 상황을 정확하게 요약했습니다. GPT-4o에서도 비슷한 답변을 받았습니다. 그래서 어느 것이 더 나은지 더 잘 이해하기 위해 코딩, UI를 사용한 코딩, 논리적 추론, 수학 추론의 네 가지 작업에서 두 모델을 체계적으로 비교하기 시작했습니다.

GPT-4o와 비교 — 어느 것이 가장 좋나요?

이제 개요를 살펴보았으므로 자세히 알아보고 모델을 살펴보겠습니다. 코드 생성, 논리적 추론, 수학적 추론을 테스트해 보겠습니다.

코드 생성

코드 생성을 위해 두 모델 모두에게 잘 알려진 스도쿠 게임을 플레이하기 위한 코드를 생성하도록 요청하겠습니다. 나는 두 모델 모두에게 "스도쿠 게임을 플레이하려면 Python 코드를 작성하세요."라는 정확한 프롬프트를 표시했습니다. 이 프롬프트를 사용하면 Claude 3.5와 GPT-4o는 모두 명령 프롬프트에서만 상호 작용할 수 있는 코드를 생성합니다. 이는 UI 코드 생성 방법을 지정하지 않았기 때문에 예상되는 현상입니다. 몇 가지 초기 관찰 내용:

두 모델 모두 버그 없는 코드를 생성합니다.
Claude는 난이도를 선택하는 기능이 포함된 코드를 생성합니다. 하지만 GPT-4o는 그렇지 않습니다!
코드 생성 속도로 Claude는 의심할 여지 없이 GPT-4o를 능가합니다.
GPT-4o는 불필요한 패키지로 코드를 생성하는 경향이 있습니다.

UI를 사용한 코드 생성

명령 프롬프트와 상호 작용하는 것이 모든 사람에게 적합한 것은 아니기 때문에 모델이 UI를 사용하여 코드를 생성하기를 원했습니다. 이를 위해 프롬프트를 "스도쿠 게임을 플레이하기 위한 코드 작성"으로 수정했습니다. 이번에는 백엔드 코드만 생성하라는 메시지가 표시될 것이라고 생각하여 프롬프트에서 "python"을 제거했습니다. 예상대로 Claude 3.5에서는 이번에 아래와 같은 기능적인 UI를 제작해 냈습니다. UI가 완전히 강력하고 매력적이지는 않았지만 기능적이었습니다.

그러나 불행하게도 GPT-4o는 유사한 UI를 생성하지 못했습니다. 여전히 대화형 명령 프롬프트를 사용하여 코드를 생성했습니다.

퍼즐 1 - 논리적 추론

첫 번째 퍼즐에서는 아래와 같은 질문을 던졌습니다.

Jane은 Jill을 만나러 갔다. Jill은 Jane의 유일한 남편의 시어머니의 유일한 남편의 외동딸의 외동딸입니다. 제인과 질은 어떤 관계인가요?

두 모델 모두 일련의 추론 단계를 제시하고 질문에 올바르게 답했습니다. 따라서 이 경우에는 Claude 3.5와 GPT-4o가 연결되어야 합니다.

퍼즐 2 - 논리적 추론

두 번째 퍼즐에서는 아래와 같은 질문을 던졌습니다.

어떤 단어가 다른 단어와 가장 비슷하지 않습니까? 차이점은 모음, 자음 또는 음절과 관련이 없습니다. 더 보기, 쌍, 에처, 지퍼\

이를 위해 두 모델 모두 서로 다른 답변을 찾기 위해 서로 다른 논리적 추론 단계를 제시했습니다. Claude는 지퍼가 명사와 동사로 모두 기능할 수 있는 유일한 단어라고 추론했습니다. 그러나 다른 것들은 단지 명사이거나 형용사일 뿐입니다. 그래서 ZIPPER를 답으로 식별했습니다. 반면 GPT-4o는 구체적인 물체나 특정 유형의 사람이 아니라는 추론을 더 많이 확인했습니다.

이 모든 것은 프롬프트를 보다 구체적으로 만들어 이 경우 동점으로 이어질 필요가 있음을 나타냅니다.

퍼즐 3 — 수학 추론

공식으로 계산할 수 있는 잘 알려진 시각적 추론 퍼즐로 넘어가 보겠습니다. 그래서 나는 두 모델 모두에 대한 입력으로 아래 프롬프트와 함께 아래 그림을 제공했습니다.

아래 3개의 원은 모두 원주에 파란색 점이 있고 직선으로 연결되어 있습니다. 첫 번째 원에는 두 개의 영역으로 구분되는 두 개의 파란색 점이 있습니다. 원주에 7개의 점이 있는 원이 있을 때, 원을 나눌 수 있는 최대 영역 수는 몇 개입니까?

이 경우 GPT-4o는 57이라는 정답을 내놓았습니다. 그러나 Claude 3.5는 64라는 답을 내놓았는데 이는 전혀 정확하지 않습니다. 두 모델 모두 답변에 도달한 이유에 대한 논리적 추론 단계를 제공했습니다. GPT-4o의 수학 공식 형식은 Claude 3.5의 형식보다 바람직합니다.

우리의 평결

테스트를 바탕으로 순수 지원 코드든 GUI 코드든 코드 생성 작업의 승자가 Claude 3.5 소네트라는 결론을 내렸습니다. 논리적 추론 작업과 밀접한 관계가 있습니다. 그러나 수학적 추론 작업에서는 GPT-4o가 여전히 선두를 달리고 있으며 Claude는 아직 따라잡지 못했습니다.

생성 속도 측면에서 보면 Claude가 GPT-4o보다 훨씬 빠르게 텍스트나 코드를 대량 생산하므로 의심의 여지가 없습니다. 우리를 확인해보세요 실시간으로 텍스트 생성 속도를 비교하고 싶다면.