Bài viết so sánh GPT-4 với các phiên bản tiền nhiệm của nó, GPT-3 và GPT-3.5 trong 6 lĩnh vực chính: khả năng của mô hình, giới hạn mã thông báo, loại đầu vào, khả năng điều khiển, tinh chỉnh và giá cả.
Việc phát hành phiên bản mới của các mô hình GPT, GPT-4, đã thu hút thêm sự chú ý đến các mô hình ngôn ngữ OpenAI – vốn đã nổi tiếng. Không có thắc mắc!
GPT-4 được giới thiệu là hệ thống tiên tiến nhất của OpenAI có thể giải quyết các vấn đề phức tạp với độ chính xác cao hơn, nhờ kiến thức chung rộng hơn và khả năng giải quyết vấn đề.
Trong bài viết này, tôi so sánh GPT-3 với GPT-4 và GPT-3.5, nằm giữa hai nhóm kiểu máy.
Sẵn sàng?
OpenAI GPT-3 là gì?
GPT-3 là một mô hình ngôn ngữ được phát triển bởi OpenAI. Nó được phát hành vào tháng 6 năm 2020 và nhanh chóng thu hút sự chú ý nhờ khả năng tạo ngôn ngữ vượt trội.
GPT-3 có nhiều mô hình cơ sở với số lượng tham số và tài nguyên tính toán khác nhau được yêu cầu. Những người được công nhận nhiều nhất là Ada, Babbage, Curie và Davinci.
Vào ngày 15 tháng 3 năm 2022, OpenAI đã phát hành phiên bản mới của GPT-3 có tên là “text-davinci-003”. Mô hình này được mô tả là có nhiều khả năng hơn các phiên bản GPT trước đó. Hơn nữa, nó đã được đào tạo về dữ liệu cho đến tháng 6 năm 2021, giúp nó cập nhật hơn nhiều so với các phiên bản trước của mô hình (được đào tạo về dữ liệu cho đến tháng 10 năm 2019). Tám tháng sau, vào tháng 11 năm 2022, OpenAI bắt đầu coi mô hình này . Nhưng hãy bỏ qua dòng thời gian.
GPT-3.5 là gì?
Hiện tại, chúng tôi có 5 biến thể mẫu khác nhau thuộc dòng GPT-3.5. Bốn trong số chúng được tối ưu hóa cho các tác vụ hoàn thành văn bản và một được tối ưu hóa cho các tác vụ hoàn thành mã.
Phiên bản mới nhất của mẫu GPT-3.5, gpt-3.5-turbo , được phát hành vào ngày 1 tháng 3 năm 2023 – và nó đã ngay lập tức khiến mức độ quan tâm đến GPT-3.5 tăng đột biến. Chỉ để hâm nóng khán giả trước khi phát hành GPT-4.
OpenAI GPT-4 là gì?
GPT-4 là phiên bản mới nhất – và tiên tiến nhất – của các mô hình ngôn ngữ OpenAI. Được giới thiệu vào ngày 14 tháng 3 năm 2023, nó được cho là cột mốc mới trong quá trình phát triển học sâu.
GPT-4 được cho là có thể tạo ra các tuyên bố thực tế chính xác hơn GPT-3 và GPT-3.5, đảm bảo độ tin cậy và độ tin cậy cao hơn. Nó cũng đa phương thức, nghĩa là nó có thể chấp nhận hình ảnh làm đầu vào và tạo chú thích, phân loại và phân tích.
Cuối cùng nhưng không kém phần quan trọng, nó đã đạt được một số sáng tạo. Như chúng ta có thể đọc trong bản cập nhật sản phẩm chính thức, “nó có thể tạo, chỉnh sửa và lặp lại với người dùng trong các tác vụ viết sáng tạo và kỹ thuật, chẳng hạn như sáng tác bài hát, viết kịch bản hoặc tìm hiểu phong cách viết của người dùng.”
Hiện tại, vào tháng 3 năm 2023, GPT-4 có hai biến thể mẫu:
gpt-4-8K
gpt-4-32K
khác nhau bởi kích thước của kích thước của cửa sổ ngữ cảnh. Mặc dù GPT-4 đã được sử dụng thương mại nhưng hầu hết người dùng sẽ cần cho đến khi họ có quyền truy cập vào API GPT-4 và xây dựng các ứng dụng cũng như dịch vụ hỗ trợ GPT-4 của riêng họ.
Có đáng để chờ đợi không? Hãy xem nào!
GPT-4 so với GPT-3 và GPT-3.5 – sự khác biệt chính
Khi , Greg Brockman, một trong những người đồng sáng lập OpenAI và chủ tịch của nó, đã có một từ: Khác biệt . Như anh ấy đã nói với Techcrunch:
Vẫn còn rất nhiều vấn đề và sai lầm mà [mô hình] mắc phải… nhưng bạn thực sự có thể thấy bước nhảy vọt về kỹ năng trong những thứ như tính toán hoặc luật, khi nó chuyển từ rất tệ ở một số lĩnh vực nhất định sang thực sự khá tốt so với con người.
Chúng ta hãy cố gắng giải thích thêm một chút về điều này. Đặc biệt là kể từ khi tiết lộ nhiều chi tiết đáng ngạc nhiên về các mô hình mới.
Khả năng của mẫu GPT-4 so với GPT-3
Một trong những khác biệt lớn nhất giữa GPT-3 và GPT-4 là khả năng của chúng. GPT-4 được cho là đáng tin cậy hơn, sáng tạo, hợp tác hơn và có thể xử lý nhiều hướng dẫn sắc thái hơn nhiều so với GPT-3.5.
Để hiểu sự khác biệt giữa hai mô hình, các nhà phát triển OpenAI đã thử nghiệm chúng trên các điểm chuẩn khác nhau, bao gồm cả các bài kiểm tra mô phỏng ban đầu được thiết kế cho con người.
Chúng tôi đã tiến hành bằng cách sử dụng các bài kiểm tra có sẵn công khai gần đây nhất (trong trường hợp các câu hỏi trả lời miễn phí của Olympic và AP) hoặc bằng cách mua các phiên bản 2022–2023 của các bài kiểm tra thực hành. Chúng tôi không đào tạo cụ thể cho các kỳ thi này. Một số vấn đề trong các bài kiểm tra đã được người mẫu nhìn thấy trong quá trình đào tạo, nhưng chúng tôi tin rằng kết quả mang tính đại diện.
(nguồn: )
Kết quả thật tuyệt vời!
Trong khi GPT-3 chỉ đạt 1 trên 5 điểm trong bài kiểm tra AP Giải tích BC, thì GPT-4 đạt 4 điểm. Trong một bài kiểm tra thanh mô phỏng, GPT-4 đã vượt qua với số điểm nằm trong khoảng 10% người dự thi cao nhất, trong khi GPT-3.5 – phiên bản cao cấp nhất của dòng GPT-3 – nằm ở 10% cuối cùng.
Hơn nữa, GPT-4 là… một đa ngôn ngữ thực sự. Mặc dù trình độ tiếng Anh của GPT đã cao trong các phiên bản GPT-3 và GPT-3.5 (với độ chính xác của phát bắn là 70,1%), nhưng độ chính xác của nó trong phiên bản mới nhất đã tăng lên hơn 85%. Trên thực tế, nó nói tốt hơn 25 ngôn ngữ so với tổ tiên của nó nói tiếng Anh – bao gồm tiếng Quan Thoại, tiếng Ba Lan và tiếng Swahili. Điều đó khá ấn tượng vì hầu hết các điểm chuẩn ML hiện có đều được viết bằng tiếng Anh.
Nếu điều đó vẫn chưa đủ, GPT-4 có thể xử lý văn bản dài hơn nhiều trong một yêu cầu – tất cả là nhờ độ dài ngữ cảnh cao hơn.
Giới hạn mã thông báo trong GPT-3 so với GPT-4
Độ dài ngữ cảnh là tham số dùng để mô tả số lượng mã thông báo có thể được sử dụng trong một yêu cầu API. Các mẫu GPT-3 ban đầu được phát hành vào năm 2020 đặt giá trị yêu cầu tối đa là 2.049 mã thông báo. Trong GPT-3.5, giới hạn này đã tăng lên 4.096 mã thông báo (tức là ~3 trang văn bản tiếng Anh có một dòng). GPT-4 có hai biến thể. Một trong số chúng (GPT-4-8K) có độ dài ngữ cảnh là 8.192 mã thông báo và mã thứ hai (GPT-4-32K) có thể xử lý tới 32.768 mã thông báo, tức là khoảng 50 trang văn bản.
Nói như vậy, chúng ta có thể nghĩ về tất cả các trường hợp sử dụng mới cho GPT-4. Với khả năng xử lý 50 trang văn bản, có thể sử dụng các mô hình OpenAI mới để tạo các đoạn văn bản dài hơn, phân tích và tóm tắt các tài liệu hoặc báo cáo lớn hơn hoặc xử lý các cuộc hội thoại mà không làm mất ngữ cảnh. Như được trình bày bởi Greg Brockman trong cuộc phỏng vấn cho :
Trước đây, người mẫu không biết bạn là ai, bạn quan tâm đến điều gì, v.v. Có loại lịch sử đó [với cửa sổ ngữ cảnh lớn hơn] chắc chắn sẽ giúp nó có nhiều khả năng hơn… Nó sẽ thúc đẩy những gì mọi người có thể làm.
Nhưng đó chưa phải là kết thúc vì ngoài việc xử lý các kiểu nhập văn bản, GPT-4 còn có thể diễn giải các kiểu nhập khác.
Các loại đầu vào trong GPT-4 và GPT-3
Mặc dù các mẫu GPT-3 và GPT-3.5 bị giới hạn ở một loại đầu vào (văn bản; hoặc mã – chính xác là như vậy), GPT-4 chấp nhận một loại đầu vào bổ sung: hình ảnh. Cụ thể, nó tạo đầu ra văn bản từ đầu vào bao gồm văn bản và hình ảnh.
Tùy thuộc vào những gì bạn yêu cầu mô hình GPT-4 thực hiện, mô hình này có thể tạo chú thích, phân loại các phần tử hiển thị hoặc phân tích hình ảnh. Trong số các ví dụ được trình bày trong tài liệu nghiên cứu GPT-4, chúng ta có thể thấy các mô hình phân tích biểu đồ, giải thích các meme và thậm chí tóm tắt các bài báo bao gồm văn bản và hình ảnh. Chúng ta phải thừa nhận rằng khả năng hiểu hình ảnh của GPT-4 rất ấn tượng.
Hãy thử nhìn mà xem!
Khả năng xử lý hình ảnh, kết hợp với giới hạn mã thông báo cao hơn, mở ra những khả năng mới cho việc sử dụng GPT-4 – từ nghiên cứu học thuật đến đào tạo cá nhân hoặc hỗ trợ mua sắm. Tuy nhiên, đừng quá phấn khích vì có thể mất một thời gian cho đến khi bạn có thể sử dụng kỹ năng mới này của GPT-4.
Như chúng ta có thể đọc trên trang OpenAI, hình ảnh đầu vào vẫn là bản xem trước nghiên cứu và không có sẵn công khai.
Xác định ngữ cảnh của cuộc hội thoại GPT-4 so với GPT-3
Một điểm khác biệt lớn nữa giữa GPT-3 và GPT-4 là cách chúng tôi có thể xác định tông màu, phong cách và hành vi của mô hình.
Trong phiên bản mới nhất của GPT, có thể cung cấp cho mô hình các hướng dẫn ở cấp độ API bằng cách bao gồm cái gọi là thông báo “hệ thống” (trong giới hạn được mô tả chi tiết trong ). Những hướng dẫn này thiết lập âm điệu của thông điệp và mô tả cách thức hoạt động của mô hình (ví dụ: “Bạn không bao giờ đưa cho học sinh câu trả lời nhưng luôn cố gắng hỏi đúng câu hỏi để giúp họ học cách tự suy nghĩ”).
Ngoài ra, chúng thiết lập ranh giới cho các tương tác của GPT-4, có thể đóng vai trò là "lan can" để ngăn GPT-4 thay đổi hành vi theo yêu cầu của người dùng – giống như trong ví dụ sau:
Như bạn có thể thấy, GPT-4 vẫn giữ vai trò của nó – được xác định trong thông báo hệ thống – bất chấp yêu cầu của người dùng.
Ở một mức độ nào đó, chúng tôi đã có thể trải nghiệm khả năng của một mô hình tương tự trong . Bằng cách xác định vai trò của mô hình trong lời nhắc hệ thống, chúng tôi có thể nhận được phản hồi khác. Xem thông báo khác nhau như thế nào tùy thuộc vào người mà mô hình GPT đang giả danh:
Cho đến tháng 3 năm 2023, khi GPT-3.5-Turbo được phát hành, không thể cung cấp thông báo hệ thống cho kiểu máy này. Thông tin ngữ cảnh cần được cung cấp trong lời nhắc và có thể dễ dàng thay đổi trong suốt cuộc trò chuyện.
Khả năng mới của GPT-4 cho phép nó nhất quán hơn trong hành vi và dễ điều chỉnh hơn đối với các thông số kỹ thuật bên ngoài (ví dụ: nguyên tắc truyền thông thương hiệu của bạn).
Chi phí sử dụng GPT-4 so với GPT-3
Tất nhiên, tất cả đều có giá của nó. Mặc dù các mô hình GPT-3 có giá từ 0,0004 đô la đến 0,02 đô la cho mỗi 1K mã thông báo và GPT-3.5-Turbo mới nhất rẻ hơn gấp 10 lần (0,002 đô la cho mỗi 1K mã thông báo) so với mô hình davinci GPT mạnh nhất, chi phí sử dụng GPT-4 không ảo tưởng: nếu bạn muốn sử dụng các mô hình cao cấp nhất, bạn sẽ phải trả thêm tiền.
GPT-4 với cửa sổ ngữ cảnh 8K sẽ có giá 0,03 USD cho mỗi 1K mã thông báo nhanh và 0,06 USD cho mỗi 1K mã thông báo hoàn thành. Mặt khác, GPT-4 với cửa sổ ngữ cảnh 32K sẽ có giá 0,06 USD cho mỗi 1K mã thông báo nhanh và 0,12 USD cho mỗi 1K mã thông báo hoàn thành.
Nếu xử lý 100.000 yêu cầu với độ dài trung bình là 1500 mã thông báo nhanh và 500 mã thông báo hoàn thành thì chi phí là 4.000 đô la vớitext-davinci-003 và 400 đô la với gpt-3.5-turbo , với GPT-4, chi phí là 7.500 đô la với cửa sổ ngữ cảnh 8K và 15.000 đô la với cửa sổ ngữ cảnh 32K.
Nó không chỉ đắt tiền mà còn phức tạp hơn để tính toán . Đó là bởi vì chi phí của mã thông báo nhanh (đầu vào) khác với chi phí của mã thông báo hoàn thành (đầu ra). Nếu bạn còn nhớ của chúng tôi thì bạn đã biết rằng việc ước tính mức sử dụng mã thông báo rất khó vì có mối tương quan rất thấp giữa độ dài đầu vào và đầu ra. Với chi phí cao hơn của mã thông báo đầu ra (hoàn thành), chi phí sử dụng các mô hình GPT-4 thậm chí sẽ khó dự đoán hơn.
Tinh chỉnh các mô hình OpenAI
Bạn có nhớ cách chúng tôi xác định ngữ cảnh trong thông báo hệ thống cho GPT-4 và GPT-3.5-Turbo không? Tinh chỉnh về cơ bản là một phương pháp thay thế để xác định tông màu, kiểu và hành vi của mô hình cũng như tùy chỉnh các mô hình GPT cho một ứng dụng cụ thể.
Để tinh chỉnh mô hình, bạn huấn luyện nó trên nhiều ví dụ hơn là lời nhắc có thể phù hợp. Sau khi mô hình được tinh chỉnh, bạn không cần cung cấp ví dụ trong lời nhắc. Điều này giúp tiết kiệm chi phí (cứ 1 nghìn mã thông báo đều có giá trị!) và cho phép các yêu cầu có độ trễ thấp hơn. Âm thanh tuyệt vời, phải không? Tuy nhiên, thật đáng tiếc khi là các mô hình cơ sở GPT-3 ban đầu (davinci, curie, ada và bắp cải).
Lỗi và hạn chế
Khi các tin đồn khác nhau về GPT-4 xuất hiện (ví dụ: tin đồn liên quan đến số lượng tham số mà nó sử dụng), Giám đốc điều hành của OpenAI đã nhận xét rằng:
Nhà máy tin đồn GPT-4 là một điều vô lý. Tôi không biết tất cả bắt nguồn từ đâu. Mọi người đang cầu xin để được thất vọng, và họ sẽ được. (…) Chúng tôi không có AGI thực sự, và đó là những gì được mong đợi ở chúng tôi.
Mặc dù khó có thể gọi GPT-4 là đáng thất vọng, nhưng xét đến tính sáng tạo và khả năng tuyệt vời của nó, điều quan trọng là phải nhận thức được những hạn chế của nó. Và như chúng ta có thể đọc trong tài liệu nghiên cứu sản phẩm: chúng không thay đổi nhiều so với các phiên bản trước của mô hình.
Cũng giống như các phiên bản tiền nhiệm, GPT-4 không có kiến thức về các sự kiện xảy ra sau tháng 9 năm 2021. Ngoài ra, ChatGPT có vẻ thông minh đến đâu thì ChatGPT vẫn không hoàn toàn đáng tin cậy – ngay cả khi được hỗ trợ bởi GPT-4. Mặc dù nó được tuyên bố là giảm đáng kể ảo giác so với các mẫu trước đó (đạt điểm cao hơn 40% so với GPT-3.5 trong các đánh giá nội bộ của họ), nhưng nó vẫn "ảo giác" các sự kiện và đưa ra các lỗi lập luận. Nó vẫn có thể tạo ra lời khuyên có hại (mặc dù có nhiều khả năng từ chối trả lời hơn), mã lỗi hoặc thông tin không chính xác và do đó, nó không nên được sử dụng ở những khu vực có chi phí lỗi cao.
GPT-3 so với GPT-4 – Điểm mấu chốt
Là hệ thống tiên tiến nhất của OpenAI, GPT-4 vượt qua các phiên bản cũ hơn của các mô hình trong hầu hết mọi lĩnh vực so sánh. Nó sáng tạo hơn và mạch lạc hơn GPT-3. Nó có thể xử lý các đoạn văn bản dài hơn hoặc thậm chí cả hình ảnh. Nó chính xác hơn và ít có khả năng bịa ra “sự thật”. Nhờ các khả năng của mình, nó tạo ra nhiều trường hợp sử dụng khả thi mới cho AI tổng quát .
Điều đó có nghĩa là GPT-4 sẽ thay thế GPT-3 và GPT-3.5? Chắc là không. Mặc dù GPT mạnh hơn các phiên bản trước của mô hình OpenAI, nhưng nó cũng đắt hơn để sử dụng. Trong nhiều trường hợp sử dụng mà bạn không cần một kiểu máy để xử lý tài liệu nhiều trang hoặc “nhớ” các cuộc hội thoại dài, khả năng của GPT-3 và GPT-3.5 sẽ là vừa đủ.