2,881 lượt đọc

ChatGPT đã trả lời 50.000 câu hỏi nhỏ - Đây là cách nó đã làm

từ tác giả Aaron Batilo11m2023/01/24

dài quá đọc không nổi

Qua 49.717 câu hỏi trắc nghiệm, ChatGPT đã đúng 66,7% thời gian

featured image - ChatGPT đã trả lời 50.000 câu hỏi nhỏ - Đây là cách nó đã làm

TL;DR: Trên 49.717 câu hỏi trắc nghiệm, ChatGPT đúng 66,7%. Tiếp tục đọc để xem phân tích theo danh mục

, tôi đã có ý tưởng xem bạn có thể trả lời các câu hỏi đố với AI tốt đến mức nào. Tôi đã sử dụng word2vec và chọn câu trả lời dựa trên câu trả lời trắc nghiệm nào có độ tương tự cosin cao nhất với giá trị trung bình của vectơ của câu. Nói một cách đơn giản, điều này… hoàn toàn không hoạt động.

Tỷ lệ câu hỏi mà phương pháp này trả lời đúng không cao hơn đáng kể so với chọn câu trả lời ngẫu nhiên.

Khi bài báo word2vec lần đầu tiên xuất hiện, đó là một cuộc cách mạng khi chúng ta có thể thực hiện phép loại suy về nghĩa ngữ nghĩa của từ. “ ”. Tôi đã được thả nổi. Bài ra mắt vào năm 2013, và chúng ta đang ở đây vào năm 2023.

Một con số khổng lồ 10 năm sau và vô số thế hệ tiến bộ trong học máy, hiểu, hiểu, v.v.

Vào tháng 6 năm 2017, chúng tôi may mắn có được bài báo “ ” giới thiệu kiến trúc biến áp là hàm bước đã mang lại cho chúng tôi cuộc cách mạng này trong xử lý ngôn ngữ tự nhiên. Vì vậy, những gì khác nhau bây giờ?

Vào cuối năm 2022, OpenAI đã phát hành . Cốt lõi của tất cả là một trải nghiệm người dùng tuyệt vời mà ai đó đã nghĩ ra để tương tác với GPT-3.5.

GPT-3 ban đầu được cung cấp vào mùa hè năm 2020 ở dạng beta riêng tư và mặc dù có , việc sử dụng GPT-3 vẫn còn khá đáng sợ đối với người bình thường.

Sân chơi có tất cả các nút và thông số để điều chỉnh phản hồi của GPT-3 và điều đó đã khiến nhiều người không sử dụng nó. Mặt khác, ChatGPT là… một chatbot. Nó trông không khác gì nói chuyện với ai đó trong Slack hoặc Microsoft Teams.

Bất cứ ai cũng có thể đăng ký, không có danh sách chờ và không có nút bấm đáng sợ. .

Trong phần còn lại của bài viết này, tôi sẽ gọi mô hình là ChatGPT, mặc dù điều đó không hoàn toàn chính xác vì ChatGPT là phiên bản tinh chỉnh của GPT-3.5.

Vì vậy, nó thông minh như thế nào? 6 năm sau kể từ thử nghiệm ban đầu của mình, tôi muốn tìm hiểu khả năng của một số công nghệ máy học ấn tượng nhất mà chúng tôi từng thấy cho đến nay. Chúng tôi đã thấy các tác phẩm sáng tạo của ChatGPT. Tôi thậm chí còn tạo một trang web thú vị cho vợ tôi và tôi sử dụng: //catstories.ai.

ChatGPT rất tuyệt vời trong các nhiệm vụ sáng tạo, nhưng đối với các nhiệm vụ liên quan đến nhiều kiến thức hơn, các ý kiến sẽ bị chia rẽ nhiều hơn đáng kể.

Một số người tin rằng ChatGPT, với giao diện trực quan, sẽ thay thế các công cụ tìm kiếm truyền thống như Google. cùng với các sản phẩm khác.

ChatGPT được dạy mọi thứ mà nó biết bằng cách đọc một lượng lớn thông tin trên internet và nó sử dụng thông tin đó khi tạo văn bản. Đối với những người không chuyên về kỹ thuật, bạn có thể coi nó giống như tính năng tự động hoàn thành của điện thoại, nhưng thông minh hơn nhiều.

Nếu thông minh về cách nhắc ChatGPT, bạn có thể khiến nó thực hiện những điều mang tính cách mạng và kiểm tra kiến thức của nó. Ví dụ: ChatGPT đã có thể vượt qua .

Bạn có thể yêu cầu nó viết nội dung tiếp thị hoặc viết email cho bạn. Nhưng nếu chúng ta sử dụng nó như một nguồn sự thật để thay thế những thứ như công cụ tìm kiếm, thì nó sẽ làm gì với kiến thức tổng quát?

Tôi đã kiểm tra nó như thế nào?

Bộ dữ liệu là một bộ dữ liệu sáng tạo chung gồm các câu hỏi trắc nghiệm. Các câu hỏi được chia thành 22 loại như: động vật, giải trí, lịch sử, phim ảnh và thể thao.

Hầu hết các câu hỏi đều có 4 câu trả lời trắc nghiệm, nhưng một số câu hỏi là câu hỏi đúng hoặc sai.

Các câu hỏi có dạng sau:

 #Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos

Đầu tiên, bạn có câu hỏi chính nó. Sau đó, bạn có câu trả lời chính xác. Cuối cùng, bạn có các lựa chọn cho câu trả lời của mình; một trên mỗi dòng.

Kịch bản của tôi sẽ tải xuống từng danh mục và đặt từng câu hỏi cho ChatGPT.

Đối với câu hỏi trên, tôi sẽ định dạng lời nhắc của mình như sau:

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:

Sau đó, tôi sẽ gửi câu trả lời này tới ChatGPT và so sánh câu trả lời của nó với câu trả lời đúng.

Soooooo, Làm thế nào nó làm?

Đây là dữ liệu thô, được sắp xếp từ ít nhất đến đúng nhất:

 Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377

Thật thú vị khi xem các danh mục này bị phá vỡ như thế nào. Đáng chú ý, ChatGPT không làm tốt ở hạng mục trêu ghẹo não. Hãy xem xét một vài ví dụ về những câu hỏi này.

 #Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project

Điều này khiến tôi mất một lúc để tìm ra, nhưng ChatGPT đã hiểu đúng. Câu trả lời là B. Những ký tự đó nói windows,98 lộn ngược. Khi tôi đang nói chuyện với một người bạn của tôi tại , anh ấy đề nghị tôi thử để ChatGPT tự giải thích. Vì vậy, tôi đã làm điều đó.

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.

Lúc đầu, tôi rất ấn tượng rằng ChatGPT có thể tìm ra điều này, nhưng thực ra có vẻ như ChatGPT chỉ đoán thôi.

Hãy xem một ví dụ trong đó ChatGPT không chính xác.

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.

Đây là một minh chứng tuyệt vời về cách ChatGPT có thể khá ngu ngốc. Nó có số học hoàn toàn sai. Bởi vì nó chỉ tạo văn bản, điều đó không có nghĩa là nó đã mã hóa chính xác số học. Câu trả lời đúng ở đây là 2. 2 bình phương là 4, nhân 5 là 20. 2 nhân 10 cũng là 20.

Hãy xem một ví dụ khác trong đó ChatGPT đúng theo tập dữ liệu, nhưng phần giải thích không hoàn toàn phù hợp:

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.

Vì vậy, đây là một điều thực sự thú vị. Bộ dữ liệu không có lời giải thích cho bất kỳ câu hỏi hóc búa nào trong số này, nhưng nó liệt kê câu trả lời đúng là “đúng”. Nếu bạn tra Google, bạn sẽ thấy rằng câu trả lời cho câu đố được cho là “đúng” vì người đàn ông có thể tung hứng các quả bóng.

Bỏ qua của tình huống như vậy, câu trả lời ChatGPT, một lần nữa, hoàn toàn không chính xác về mặt số học khi nói rằng 201 pound nhỏ hơn trọng lượng tối đa là 200 pound.

Hãy xem xét một ví dụ cuối cùng đề cập đến một thứ gì đó trong trường NLP được gọi là . Mà, để đơn giản hóa, về cơ bản là có thể hiểu cách đại từ giải quyết các tác nhân mơ hồ trong cùng một câu.

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.

Trong câu trả lời này, ChatGPT giải thích rằng cậu bé mới là người bị đánh đòn, và vì vậy, mặc dù có thể có một số điểm không rõ ràng giữa cách dùng từ “anh ta” và “của anh ta” ám chỉ cậu bé hoặc người cha, ChatGPT hiểu ngữ cảnh của cậu bé bị đánh đòn.

Những lời trêu ghẹo não này đòi hỏi những kết luận hợp lý mà có vẻ như ChatGPT không thực sự suy luận thấu đáo. Có lý khi đây là hạng mục mà ChatGPT thất bại nhiều nhất, nhưng cũng có một số câu trả lời ấn tượng.

Điều đó đang được nói, thậm chí yêu cầu ChatGPT giải thích chính nó là một phản hồi được tạo ra. Không có gì để nói rằng đây là cách ChatGPT nghĩ về các vấn đề một cách hợp pháp.

Hãy xem xét một danh mục khác, văn học, có lẽ ChatGPT nên giỏi vì sẽ có nhiều văn bản và tài liệu tham khảo để tìm hiểu về văn học.

Những lời trêu ghẹo não này đòi hỏi những kết luận hợp lý mà có vẻ như ChatGPT không thực sự suy luận thấu đáo. Điều hợp lý là đây là danh mục mà ChatGPT đã thất bại nhiều nhất.

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.

Trong trường hợp này, ChatGPT là chính xác. Harry Potter đủ nổi tiếng với một lượng lớn người hâm mộ đến nỗi điều này có lẽ được nói đến rất nhiều.

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.

Một trường hợp thực sự thú vị khác ở đây. Harry kết hôn với Ginny và có hai đứa con, không phải Hermione. Cố gắng nghĩ xem điều này có thể xảy ra như thế nào, tôi tự hỏi liệu các bình luận trên internet và có thể là truyện hư cấu của người hâm mộ nằm trong tập huấn luyện có đủ nội dung khiến Harry và Hermione thích ở bên nhau hơn không.

Hàm ý ở đó đối với nền tảng kiến thức lớn hơn của ChatGPT là bạn có thể tác động đến những gì nó cho là đúng nếu có đủ *ý kiến* trong dữ liệu đào tạo của nó.

kết thúc

Như tôi đã nói, có gần 50.000 câu hỏi. Việc đào sâu vào từng vấn đề một trong số chúng là không thực tế đối với một bài đăng, nhưng thực sự thú vị khi thử tìm hiểu trực giác tại sao ChatGPT tốt hơn hoặc kém hơn trong các danh mục khác nhau.

Trong các danh mục như câu hỏi hóc búa, có nhiều logic hơn mức cần thiết để áp dụng và kết hợp để trả lời một số câu hỏi.

Trong các danh mục có điểm số thấp khác như truyền hình và trò chơi điện tử, tôi đoán là vì bản thân nội dung không ở định dạng có thể lập chỉ mục/tiêu thụ được nên ChatGPT không có nhiều thông tin về nội dung đó.

ChatGPT chưa tự chơi trò chơi hoặc xem các chương trình truyền hình. Có thể có nội dung của bên thứ 3 GIỚI THIỆU những gì đã xảy ra trong chương trình, nhưng thay vào đó, nội dung của chương trình sẽ được đề cập lướt qua.

Trong các danh mục có điểm số cao, tất cả các danh mục đều có xu hướng dành cho nội dung đã được ghi lại bằng văn bản từ rất lâu trước khi chúng ta có âm thanh, video, v.v.

Danh mục địa lý và danh mục lịch sử có nội dung đã tồn tại từ lâu trước khi chúng ta có công nghệ và kho lưu trữ để lưu giữ thường xuyên những thứ như nội dung truyền hình.

Tất cả những gì đang được nói, độ chính xác 66% vẫn còn khá ấn tượng với nhiều lựa chọn chủ đề như vậy. Nhưng như chúng ta đã biết, đôi khi câu trả lời được cho là đúng, nhưng lời giải thích không phải lúc nào cũng đúng.

Tôi không nghĩ ChatGPT hoặc bất kỳ mô hình ngôn ngữ lớn nào mà chúng tôi có ngay bây giờ là AI mạnh hoặc AI nói chung mà một số bài báo muốn bạn tin vào điều đó.

Tôi không nghĩ rằng bất kỳ mô hình ngôn ngữ lớn nào có bản chất tổng quát sẽ thay thế các công cụ tìm kiếm truyền thống hiển thị thông tin chất lượng cao. Có những công cụ tìm kiếm như đang khám phá giao lộ, nhưng vẫn còn sớm cho công nghệ này!

Giữa quá trình phát triển và thực hiện các lần chạy cuối cùng, thử nghiệm này tiêu tốn của tôi khoảng 100 đô la để đạt được API GPT-3 cho tất cả các câu hỏi. Tôi sẽ mãi mãi biết ơn nếu bạn cân nhắc .

Nếu một công ty sẵn sàng tài trợ cho công việc, sẽ rất thú vị khi thử các gợi ý khác nhau, sắp xếp ngẫu nhiên thứ tự các câu trả lời, thử chạy thử nghiệm nhiều lần, v.v.

Tôi cũng muốn thực hiện bài kiểm tra tương tự đối với , nhưng với mức độ đắt đỏ của bài kiểm tra này, việc thực hiện bài kiểm tra đối với bộ câu hỏi gần gấp 10 lần sẽ là quá sức đối với tôi ngay bây giờ.

Như mọi khi, tất cả mã mà tôi đã viết cho điều này đều có sẵn. Kiểm tra mã của bài đăng này, , bằng .

Ảnh của trên

L O A D I N G
. . . comments & more!