TL; DR : Sur 49 717 questions à choix multiples, ChatGPT était correct 66,7 % du temps. Continuez à lire pour voir la répartition par catégorie
, j'ai eu l'idée de voir à quel point vous pouviez répondre à des questions triviales avec l'IA. J'ai utilisé word2vec et choisi des réponses en fonction de la réponse à choix multiple qui présentait la plus grande similitude en cosinus avec la moyenne du vecteur de la phrase. Autrement dit, cela… n'a pas fonctionné du tout.
Le pourcentage de questions que cette méthode a obtenu correctes n'était pas nettement meilleur que la sélection de réponses au hasard.
Lorsque l'article word2vec est sorti pour la première fois, il était révolutionnaire de pouvoir faire des analogies pour les significations sémantiques des mots. « ». J'étais terrassé. Le est sorti en 2013, et nous voici en 2023.
10 ans plus tard et d'innombrables générations d'avancées dans l'apprentissage automatique, la compréhension, la compréhension, etc.
En juin 2017, nous avons eu la chance de publier l'article « » qui a présenté l'architecture de transformateur qui était la fonction d'étape qui nous a apporté cette révolution dans le traitement du langage naturel. Alors, qu'est-ce qui est différent maintenant ?
Fin 2022, OpenAI a publié . Ce qui, au cœur de tout cela, est un UX brillant que quelqu'un a inventé pour interagir avec GPT-3.5.
Le GPT-3 original a été mis à disposition à l'été 2020 en version bêta privée, et bien qu'il existe une de jeu, l'utilisation de GPT-3 était encore assez intimidante pour la personne ordinaire.
Le terrain de jeu comportait tous les boutons et paramètres permettant de régler la réponse du GPT-3, ce qui a empêché de nombreuses personnes de l'utiliser. ChatGPT, en revanche, était… un chatbot. Cela ne semblait pas différent de parler à quelqu'un dans Slack ou Microsoft Teams.
N'importe qui pouvait s'inscrire, il n'y avait pas de liste d'attente et pas de boutons effrayants. .
Pour le reste de cet article, je ferai référence au modèle en tant que ChatGPT, même si ce n'est pas parfaitement précis puisque ChatGPT est une version affinée de GPT-3.5.
Alors, à quel point est-il intelligent ? 6 ans après mon expérience initiale, je voulais découvrir quelles sont les capacités de certains des apprentissages automatiques les plus impressionnants que nous ayons vus à ce jour. Nous avons vu les travaux créatifs de ChatGPT. J'ai même créé un site Web amusant pour ma femme et moi : //catstories.ai.
ChatGPT est incroyable pour les tâches créatives, mais pour les tâches qui impliquent plus de connaissances, les opinions sont nettement plus partagées.
Certaines personnes sont convaincues que ChatGPT, avec son interface intuitive, va remplacer les moteurs de recherche traditionnels comme Google. , ainsi que d'autres produits.
ChatGPT apprend tout ce qu'il sait en lisant de grandes quantités d'Internet, et il utilise ces informations lorsqu'il génère du texte. Pour les non-techniciens, vous pouvez le considérer comme la saisie semi-automatique de votre téléphone, mais de manière plus intelligente.
Si vous savez comment vous invitez ChatGPT, vous pouvez lui faire faire des choses révolutionnaires et tester ses connaissances. Par exemple, ChatGPT a réussi l' .
Vous pouvez lui demander de rédiger une copie marketing ou d'écrire des e-mails pour vous. Mais si nous allons l'utiliser comme source de vérité pour remplacer des choses comme les moteurs de recherche, comment cela se passe-t-il avec les connaissances générales ?
Comment l'ai-je testé ?
L'ensemble de données est un ensemble de données creative commons de questions à choix multiples. Les questions sont divisées en 22 catégories telles que : animaux, divertissement, histoire, films et sports.
La plupart des questions ont 4 réponses possibles à choix multiples, mais certaines des questions sont des questions vraies ou fausses.
Les questions se présentent sous le format suivant :
#Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos
D'abord, vous avez la question elle-même. Alors vous avez la bonne réponse. Enfin, vous avez vos options de réponses; un sur chaque ligne.
Mon script téléchargerait chacune des catégories et poserait chaque question à ChatGPT.
Pour la question ci-dessus, je formaterais mon invite pour qu'elle ressemble à ceci :
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:
Je l'enverrais ensuite à ChatGPT et comparerais sa réponse avec la bonne réponse.
Soooooo, comment ça s'est passé ?
Voici les données brutes, triées du moins au plus correct :
Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377
C'est vraiment intéressant de voir comment ces catégories se décomposent. Notamment, ChatGPT n'a pas bien réussi dans la catégorie des casse-tête. Examinons quelques exemples de ces questions.
#Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project
Celui-ci m'a pris un certain temps à comprendre, mais ChatGPT l'a bien compris. La réponse est B. Ces caractères disent fenêtres,98 à l'envers. Lorsque je parlais à un de mes amis chez , il m'a suggéré d'essayer de faire en sorte que ChatGPT s'explique. Alors j'ai fait ça.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.
Au début, j'ai été impressionné que ChatGPT ait pu comprendre cela, mais il semble en fait que ChatGPT vient de deviner.
Regardons un exemple où ChatGPT était incorrect.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.
Voici une excellente démonstration de la façon dont ChatGPT peut être assez stupide. Il s'est complètement trompé d'arithmétique. Parce qu'il ne fait que générer du texte, cela ne signifie pas qu'il a correctement encodé l'arithmétique. La bonne réponse ici est 2. 2 au carré est 4, fois 5 est 20. 2 fois 10 est aussi 20.
Regardons un autre exemple où ChatGPT était correct selon l'ensemble de données, mais l'explication ne correspond pas tout à fait :
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.
Donc, c'est vraiment intéressant. L'ensemble de données n'a d'explication pour aucun de ces casse-tête, mais il répertorie la bonne réponse comme "vrai". Si vous faites quelques recherches sur Google, vous constaterez que la réponse à l'énigme est censée être "vraie" car l'homme peut jongler avec les balles.
Ignorant la d'une telle situation, la réponse ChatGPT, une fois de plus, rend l'arithmétique complètement incorrecte en disant que 201 livres est inférieur au poids maximum de 200 livres.
Examinons un dernier exemple qui traite de quelque chose dans le champ NLP appelé le . Ce qui, pour simplifier à l'extrême, consiste essentiellement à comprendre comment les pronoms se résolvent en acteurs ambigus dans la même phrase.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.
Dans cette réponse, ChatGPT explique que le garçon est celui qui reçoit la fessée, et donc, même s'il peut y avoir une certaine ambiguïté entre les usages de "lui" et "son" se référant au garçon ou au père, ChatGPT comprend le contexte de le garçon étant fessé.
Ces casse-tête nécessitent des conclusions logiques qu'il semble que ChatGPT ne raisonne pas vraiment. Il est logique que ce soit la catégorie dans laquelle ChatGPT a le plus échoué, mais il existe également des réponses impressionnantes.
Cela étant dit, même demander à ChatGPT de s'expliquer est une réponse générée. Rien ne permet de dire que c'est légitimement ainsi que ChatGPT envisage les problèmes.
Regardons une autre catégorie, la littérature, dans laquelle ChatGPT devrait probablement être bon car il devrait y avoir beaucoup de texte et de références pour en savoir plus sur la littérature.
Ces casse-tête nécessitent des conclusions logiques qu'il semble que ChatGPT ne raisonne pas vraiment. Il est logique que ce soit la catégorie dans laquelle ChatGPT a le plus échoué.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.
Dans ce cas, ChatGPT est correct. Harry Potter est suffisamment populaire auprès d'un grand nombre de fans pour qu'il soit logique que l'on en parle beaucoup.
I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.
Un autre cas vraiment intéressant ici. Harry épouse Ginny et a deux enfants, pas Hermione. En essayant de réfléchir à la façon dont cela aurait pu se produire, je me demande si les commentaires sur Internet et peut-être la fanfiction qui faisait partie de l'ensemble de formation avaient suffisamment de contenu qui préférait que Harry et Hermione soient ensemble.
L'implication pour la plus grande base de connaissances de ChatGPT est que vous pouvez influencer ce qu'il considère comme vrai s'il y a suffisamment d'*opinion* dans ses données de formation.
Emballer
Comme je l'ai dit, il y a près de 50 000 questions. Creuser dans chacun d'entre eux n'est pas pratique pour un seul message, mais il est vraiment intéressant d'essayer de deviner pourquoi ChatGPT est meilleur ou pire dans différentes catégories.
Dans des catégories comme les casse-tête, il y a beaucoup plus de logique qu'il n'est nécessaire d'appliquer et de combiner pour répondre à certaines des questions.
Dans d'autres catégories à faible score comme la télévision et les jeux vidéo, je suppose que parce que le contenu lui-même n'est pas dans un format indexable/consommable, ChatGPT n'a pas autant d'informations à ce sujet.
ChatGPT n'a pas joué aux jeux eux-mêmes ni regardé les émissions de télévision. Il pourrait y avoir du contenu tiers SUR ce qui s'est passé dans les émissions, mais le contenu de l'émission serait mentionné en passant à la place.
Dans les catégories à score élevé, les catégories ont toutes tendance à concerner des contenus qui ont été documentés dans du texte bien avant que nous ayons de l'audio, de la vidéo, etc.
La catégorie géographie et la catégorie histoire ont un contenu qui existait bien avant que nous ayons la technologie et le stockage pour conserver régulièrement des choses comme le contenu télévisuel.
Cela étant dit, une exactitude de 66% est toujours assez impressionnante compte tenu d'une si vaste sélection de sujets. Mais comme nous l'avons appris, parfois les réponses seraient correctes, mais les explications ne sont pas toujours correctes.
Je ne pense pas que ChatGPT ou tout grand modèle de langage que nous ayons actuellement soit l'IA puissante ou l'IA générale que certains articles veulent vous faire croire.
Je ne pense pas que de grands modèles de langage de nature générative devraient remplacer les moteurs de recherche traditionnels qui proposent des informations de haute qualité. Il existe des moteurs de recherche comme qui explorent l'intersection, mais cette technologie n'en est encore qu'à ses balbutiements !
Entre le développement et les dernières exécutions, cette expérience m'a coûté environ 100 $ pour accéder à l'API GPT-3 pour toutes les questions. Je vous serais éternellement reconnaissant si vous envisagez .
Si une entreprise était disposée à parrainer le travail, il serait intéressant d'essayer différentes invites, de randomiser l'ordre des réponses, d'essayer d'exécuter les tests plusieurs fois, etc.
J'aimerais aussi exécuter le même test sur l' , mais étant donné le coût de ce test, exécuter le test sur un ensemble de questions presque 10 fois plus serait trop difficile pour moi pour le moment.
Comme toujours, le code que j'ai écrit pour cela est disponible. Consultez le code de ce message, , en .
Photo de sur