이 기사에서는 모델 기능, 토큰 제한, 입력 유형, 조정 가능성, 미세 조정, 가격 등 6가지 주요 영역에서 GPT-4를 이전 모델인 GPT-3 및 GPT-3.5와 비교합니다.
People Mentioned
GPT 모델의 새 버전인 GPT-4가 출시되면서 이미 유명한 OpenAI 언어 모델에 대한 관심이 더욱 높아졌습니다. 당연히!
GPT-4는 폭넓은 일반 지식과 문제 해결 능력 덕분에 복잡한 문제를 더 정확하게 해결할 수 있는 OpenAI의 가장 발전된 시스템으로 소개되었습니다.
이 기사에서는 GPT-3과 GPT-4, 그리고 두 모델 그룹 사이에 나온 GPT-3.5를 비교합니다.
준비가 된?
OpenAI GPT-3란 무엇입니까?
GPT-3은 OpenAI가 개발한 언어 모델입니다. 2020년 6월에 출시되었으며 놀라운 언어 생성 기능으로 빠르게 주목을 받았습니다.
GPT-3은 다양한 수의 매개변수와 필요한 계산 리소스를 갖춘 여러 기본 모델로 제공됩니다. 가장 잘 알려진 인물로는 에이다(Ada), 배비지(Babbage), 퀴리(Curie), 다빈치(Davinci)가 있습니다.
2022년 3월 15일, OpenAI는 "text-davinci-003"이라는 새로운 버전의 GPT-3을 출시했습니다. 이 모델은 이전 버전의 GPT보다 더 많은 기능을 갖춘 것으로 설명되었습니다. 또한 2021년 6월까지의 데이터에 대해 교육을 받았기 때문에 이전 모델 버전(2019년 10월까지의 데이터에 대해 교육)보다 훨씬 더 최신 상태입니다. 8개월 후인 2022년 11월 OpenAI는 이 모델을 부르기 시작했습니다. 하지만 타임라인을 건너뛰자.
GPT-3.5란 무엇입니까?
현재 GPT-3.5 시리즈에 속하는 5가지 모델 변형이 있습니다. 그 중 4개는 텍스트 완성 작업에 최적화되어 있고, 하나는 코드 완성 작업에 최적화되어 있습니다.
GPT-3.5 모델의 최신 버전인 gpt-3.5-turbo 2023년 3월 1일에 출시되면서 GPT-3.5에 대한 관심이 즉시 급증했습니다. GPT-4가 출시되기 전에 청중을 따뜻하게 만들기 위한 것입니다.
OpenAI GPT-4란 무엇입니까?
GPT-4는 OpenAI 언어 모델의 가장 최신이자 가장 발전된 버전입니다. 2023년 3월 14일에 출시된 이 제품은 딥러닝 개발의 새로운 이정표라고 합니다.
GPT-4는 GPT-3 및 GPT-3.5보다 사실적으로 더 정확한 진술을 생성할 수 있어 더 큰 신뢰성과 신뢰도를 보장할 수 있다고 합니다. 또한 다중 모드이므로 이미지를 입력으로 받아들이고 캡션, 분류 및 분석을 생성할 수 있습니다.
마지막으로 창의성을 얻었습니다. 공식 제품 업데이트에서 읽을 수 있듯이 "노래 작곡, 각본 작성 또는 사용자의 작문 스타일 학습과 같은 창의적이고 기술적인 작문 작업을 사용자와 함께 생성, 편집 및 반복할 수 있습니다."
현재 2023년 3월 GPT-4는 두 가지 모델 변형으로 출시됩니다.
gpt-4-8K
gpt-4-32K
이는 컨텍스트 창의 크기에 따라 다릅니다. GPT-4가 이미 상업적으로 사용되고 있지만 대부분의 사용자는 GPT-4 API에 액세스하고 자체 GPT-4 기반 애플리케이션 및 서비스를 구축할 때까지 합니다.
기다릴 가치가 있나요? 보자!
GPT-4와 GPT-3 및 GPT-3.5 – 주요 차이점
OpenAI의 공동 창립자 중 한 명이자 사장인 Greg Brockman은 때 다음과 같은 한 단어를 말했습니다. 그는 Techcrunch에게 다음과 같이 말했습니다.
[모델]이 저지르는 많은 문제와 실수가 여전히 많이 있습니다. 하지만 미적분이나 법칙과 같은 분야의 기술이 특정 영역에서 정말 나빴던 것에서 인간에 비해 실제로 꽤 좋은 것으로 변한 것을 실제로 볼 수 있습니다.
이에 대해 좀 더 자세히 살펴보겠습니다. 특히 OpenAI가 에서는 새 모델에 대해 놀라울 정도로 많은 세부 정보가 밝혀졌습니다.
GPT-4와 GPT-3 모델의 기능
GPT-3과 GPT-4의 가장 큰 차이점 중 하나는 기능입니다. GPT-4는 GPT-3.5보다 더 안정적이고 창의적이며 협업적이며 훨씬 더 미묘한 지침을 처리할 수 있다고 합니다.
두 모델의 차이점을 이해하기 위해 OpenAI 개발자는 원래 인간을 위해 설계된 시험 시뮬레이션을 포함하여 다양한 벤치마크에서 모델을 테스트했습니다.
우리는 공개적으로 사용 가능한 최신 테스트(올림피아드 및 AP 무료 응답 질문의 경우)를 사용하거나 2022~2023년 버전의 연습 시험을 구매하여 진행했습니다. 우리는 이 시험에 대해 특별한 교육을 실시하지 않았습니다. 시험의 문제 중 소수는 훈련 중에 모델에서 확인되었지만 결과는 대표적이라고 생각합니다.
(출처: )
결과는 놀랍습니다!
AP Calculus BC 시험에서 GPT-3은 5점 만점에 1점에 불과한 반면, GPT-4는 4점을 받았습니다. 모의 변호사 시험에서 GPT-4는 응시자의 상위 10% 정도의 점수로 합격한 반면, GPT-3.5는 – GPT-3 시리즈의 가장 발전된 버전은 하위 10%에 속했습니다.
게다가 GPT-4는… 진정한 다중언어입니다. GPT의 영어 능력은 GPT-3 및 GPT-3.5 버전에서 이미 높았지만(촬영 정확도는 70.1%) 최신 버전에서는 정확도가 85% 이상으로 향상되었습니다. 실제로, 이 종은 중국어, 폴란드어, 스와힐리어를 포함하여 조상이 영어를 사용했던 것보다 25개 언어를 더 잘 구사합니다. 대부분의 기존 ML 벤치마크가 영어로 작성되었다는 점을 고려하면 이는 매우 인상적입니다.
충분하지 않은 경우 GPT-4는 더 긴 컨텍스트 길이 덕분에 단일 요청으로 훨씬 더 긴 텍스트를 처리할 수 있습니다.
GPT-3과 GPT-4의 토큰 한도
컨텍스트 길이는 단일 API 요청에 사용할 수 있는 토큰 수를 설명하는 데 사용되는 매개변수입니다. 2020년에 출시된 원래 GPT-3 모델은 최대 요청 값을 2,049개 토큰으로 설정했습니다. GPT-3.5에서는 이 제한이 4,096개의 토큰(한 줄로 된 영어 텍스트의 최대 3페이지)으로 늘어났습니다. GPT-4에는 두 가지 변형이 있습니다. 그 중 하나(GPT-4-8K)는 컨텍스트 길이가 8,192개의 토큰이고, 두 번째(GPT-4-32K)는 약 50페이지의 텍스트에 해당하는 최대 32,768개의 토큰을 처리할 수 있습니다.
즉, 우리는 GPT-4의 모든 새로운 사용 사례에 대해 생각해 볼 수 있습니다. 50페이지의 텍스트를 처리할 수 있는 기능을 통해 새로운 OpenAI 모델을 사용하여 더 긴 텍스트를 만들고, 더 큰 문서나 보고서를 분석 및 요약하거나, 맥락을 잃지 않고 대화를 처리할 수 있습니다. 인터뷰에서 Greg Brockman이 발표한 내용:
이전에는 모델이 귀하가 누구인지, 무엇에 관심이 있는지 등에 대해 전혀 알지 못했습니다. [더 큰 컨텍스트 창을 통해] 그러한 종류의 역사를 갖는 것은 확실히 더 많은 능력을 갖게 될 것입니다. 사람들이 할 수 있는 일을 터보차지할 것입니다.
하지만 GPT-4는 텍스트 입력 처리 외에도 다른 입력 유형도 해석할 수 있기 때문에 이것이 끝이 아닙니다.
GPT-4 및 GPT-3의 입력 유형
GPT-3 및 GPT-3.5 모델은 한 가지 유형의 입력(정확히 말하면 텍스트 또는 코드)으로 제한되었지만 GPT-4는 추가 입력 유형인 이미지를 허용합니다. 구체적으로는 텍스트와 이미지로 구성된 입력에서 텍스트 출력을 생성합니다.
GPT-4 모델에 요청한 작업에 따라 캡션을 생성하고, 보이는 요소를 분류하거나, 이미지를 분석할 수 있습니다. GPT-4 연구 문서에 제시된 예시 중에는 그래프를 분석하고, 밈을 설명하고, 텍스트와 이미지로 구성된 논문을 요약하는 모델도 볼 수 있습니다. GPT-4의 이미지 이해 능력이 인상적이라는 점을 인정해야 합니다.
그냥 보세요!
더 높은 토큰 한도와 결합된 이미지 처리 기능은 학술 연구부터 개인 훈련 또는 쇼핑 도우미에 이르기까지 GPT-4를 사용할 수 있는 새로운 가능성을 열어줍니다. 하지만 GPT-4의 새로운 기술을 활용하려면 시간이 좀 걸릴 수 있으므로 너무 흥분하지 마세요.
OpenAI 사이트에서 읽을 수 있듯이 이미지 입력은 여전히 연구 미리보기이며 공개적으로 사용할 수 없습니다.
GPT-4와 GPT-3 대화의 맥락 정의
GPT-3과 GPT-4의 또 다른 큰 차이점은 모델의 톤, 스타일 및 동작을 결정하는 방법입니다.
최신 버전의 GPT에서는 소위 "시스템" 메시지를 포함하여 API 수준의 지침을 모델에 제공할 수 있습니다( 에 자세히 설명된 범위 내에서). 이러한 지침은 메시지의 분위기를 설정하고 모델이 어떻게 작동해야 하는지 설명합니다(예: "학생에게 답을 주지 않고 항상 올바른 질문을 하여 스스로 생각하는 법을 배우도록 노력합니다.").
또한 다음 예와 같이 GPT-4가 사용자 요청에 따라 동작을 변경하는 것을 방지하는 "가드레일" 역할을 할 수 있도록 GPT-4 상호 작용에 대한 경계를 설정합니다.
보시다시피 GPT-4는 사용자의 요청에도 불구하고 시스템 메시지에 정의된 역할 내에서 유지됩니다.
어느 정도 에서도 비슷한 모델의 능력을 이미 경험할 수 있었습니다. 시스템 프롬프트에서 모델의 역할을 정의하면 다른 응답을 얻을 수 있습니다. GPT 모델이 누구인 것처럼 가장하는지에 따라 메시지가 어떻게 다른지 확인하세요.
GPT-3.5-Turbo가 출시된 2023년 3월까지는 모델에 시스템 메시지를 제공하는 것이 불가능했습니다. 컨텍스트 정보는 프롬프트 내에 제공되어야 하며 대화 전반에 걸쳐 쉽게 변경될 수 있습니다.
새로운 GPT-4의 기능을 통해 동작이 보다 일관되고 외부 사양(예: 브랜드 커뮤니케이션 지침)에 따라 보다 쉽게 조정할 수 있습니다.
GPT-4와 GPT-3 사용 비용
물론 모든 것에는 대가가 따릅니다. GPT-3 모델의 가격은 1K 토큰당 $0.0004에서 $0.02이며, 최신 GPT-3.5-Turbo는 가장 강력한 GPT davinci 모델보다 10배 저렴합니다(1K 토큰당 $0.002). 환상: 가장 발전된 모델을 사용하려면 추가 비용을 지불해야 합니다.
8K 컨텍스트 창이 있는 GPT-4의 비용은 1K 프롬프트 토큰당 $0.03, 1K 완료 토큰당 $0.06입니다. 반면에 32K 컨텍스트 창이 있는 GPT-4의 비용은 1K 프롬프트 토큰당 $0.06, 1K 완료 토큰당 $0.12입니다.
평균 길이 1500개의 프롬프트 토큰과 500개의 완료 토큰으로 100,000개의 요청을 처리하는 데text-davinci-003 $4,000, gpt-3.5-turbo 의 경우 $400, GPT-4의 경우 8K 컨텍스트 창의 경우 $7,500, 8K 컨텍스트 창의 경우 $15,000가 소요됩니다. 32K 컨텍스트 창.
비용이 많이 들 뿐만 아니라 계산도 더 복잡해집니다 . 프롬프트(입력) 토큰의 비용이 완료(출력) 토큰의 비용과 다르기 때문입니다. 기억하신다면, 입력 길이와 출력 길이 사이의 상관관계가 매우 낮기 때문에 토큰 사용량을 추정하는 것이 어렵다는 것을 이미 알고 계실 것입니다. 출력(완료) 토큰의 비용이 높을수록 GPT-4 모델 사용 비용은 예측하기가 더욱 어려워집니다.
OpenAI 모델의 미세 조정
GPT-4 및 GPT-3.5-Turbo에 대한 시스템 메시지에서 컨텍스트를 어떻게 정의했는지 기억하십니까? 미세 조정은 기본적으로 모델의 톤, 스타일 및 동작을 정의하고 GPT 모델을 특정 애플리케이션에 맞게 사용자 정의하는 해결 방법입니다.
모델을 미세 조정하려면 프롬프트에 맞는 것보다 더 많은 예를 사용하여 모델을 훈련해야 합니다. 모델이 미세 조정되면 프롬프트에 예제를 제공할 필요가 없습니다. 이를 통해 비용이 절감되고(1,000개의 토큰이 모두 중요합니다!) 지연 시간이 짧은 요청이 가능합니다. 정말 좋은 것 같지 않나요? 하지만 원래 GPT-3 기본 모델(davinci, curie, ada 및 양배추)뿐이라는 점은 아쉽습니다.
오류 및 제한사항
GPT-4에 대한 다양한 소문이 나왔을 때(예: GPT-4가 사용하는 매개변수 수에 관한 소문) OpenAI의 CEO는 다음과 같이 말했습니다.
GPT-4 루머는 터무니없는 것입니다. 나는 그것이 모두 어디서 나오는지 모른다. 사람들은 실망하기를 간청하고 있으며, 그럴 것입니다. (…) 우리는 실제 AGI를 가지고 있지 않으며, 그것은 우리에게 기대되는 것입니다.
창의성과 놀라운 기능을 고려하면 GPT-4를 실망스럽다고 말하기는 어렵지만 한계를 인식하는 것이 중요합니다. 그리고 제품 연구 문서에서 읽을 수 있듯이 이전 버전의 모델에 비해 크게 변경되지 않았습니다.
이전 버전과 마찬가지로 GPT-4에는 2021년 9월 이후에 발생한 이벤트에 대한 지식이 부족합니다. 더욱이 ChatGPT가 아무리 똑똑해 보이더라도 GPT-4로 구동되더라도 여전히 완전히 신뢰할 수는 없습니다. 이전 모델에 비해 환각을 크게 줄인다고 주장하지만(내부 평가에서 GPT-3.5보다 40% 높은 점수) 여전히 사실을 "환각"하고 추론 오류를 범합니다. 여전히 해로운 조언(답변을 거부할 가능성이 훨씬 높음에도 불구하고), 버그가 있는 코드 또는 부정확한 정보를 생성할 수 있으므로 오류 비용이 높은 영역에서는 사용하면 안 됩니다.
GPT-3 대 GPT-4 – 주요 시사점
OpenAI의 가장 발전된 시스템인 GPT-4는 거의 모든 비교 영역에서 이전 버전의 모델을 능가합니다. GPT-3보다 더 창의적이고 일관성이 있습니다. 긴 텍스트나 이미지까지 처리할 수 있습니다. 이는 더 정확하고 "사실"을 만들 가능성이 적습니다. 그 기능 덕분에 생성 AI 에 대한 많은 새로운 사용 사례가 생성됩니다.
GPT-4가 GPT-3 및 GPT-3.5를 대체한다는 의미인가요? 아마도 그렇지 않을 것입니다. GPT는 이전 버전의 OpenAI 모델보다 강력하지만 사용 비용도 훨씬 더 비쌉니다. 여러 페이지로 구성된 문서를 처리하거나 긴 대화를 "기억"하는 데 모델이 필요하지 않은 많은 사용 사례에서는 GPT-3 및 GPT-3.5의 기능만으로 충분합니다.