Le 15 novembre, MetaAI et Papers with Code ont annoncé la sortie de Galactica, un grand modèle de langage open source qui change la donne, formé sur les connaissances scientifiques avec 120 milliards de paramètres. Comme l'un de mes amis l'a , le modèle peut écrire des livres blancs, des critiques, des pages Wikipédia et du code. Il sait citer et écrire des équations. C'est un gros problème pour l'IA et la science. Le 17 novembre, Galactica a été arrêté. Pourquoi? Parce que, comme avec tous les modèles d'apprentissage en profondeur, il ne comprenait pas la tâche à accomplir et se trompait dans de nombreux cas. Cela ne devrait pas être un problème, surtout si nous ajoutons un avertissement indiquant que le modèle peut être erroné et qu'il ne faut pas lui faire confiance aveuglément. Tout comme personne ne faisait confiance à Wikipédia, nous ne pouvions pas le mettre comme référence dans les projets du lycée. Le problème est que . Pourtant, le modèle est disponible pour les chercheurs, et je pense qu'il est important de le garder en open source. Comme l'a partagé un autre de mes amis, tout le drame autour du nouveau modèle semble un peu excessif. Bien sûr, le modèle n'est pas parfait, comme tous les autres actuellement disponibles en ligne. Nous en avons besoin en ligne pour tester ses limites, y travailler et l'améliorer. Nous devrions considérer ces types de publications comme des étudiants et permettre les erreurs et les améliorations sans craindre d'être fermés ou annulés. De toute façon, nous ne sommes pas là pour en discuter. Espérons . Nous sommes ici pour voir ce qu'est ou était Galactica, et comment il pourrait réaliser des articles d'écriture, des critiques, du code, et plus encore…
En savoir plus dans la vidéo
Références
►Lire l'article complet :
►Taylor et al., 2022 : Galactica,
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :
Transcription vidéo
0:00 le 15 novembre Métairie et papiers 0:03 avec le code a annoncé la sortie de 0:04 Galatica un open source qui change la donne 0:07 grand modèle de langage formé sur 0:09 connaissances scientifiques avec 120 milliards 0:12 paramètres partagés par l'un de mes amis 0:14 sur Twitter, le modèle peut écrire en blanc 0:16 les articles passent en revue les pages et le code de Wikipédia 0:19 il sait citer et écrire 0:22 équations c'est vraiment un gros 0:24 accord pour l'IA et la science le 17 novembre 0:28 Galactica a été fermé pourquoi parce que 0:31 avec tous les modèles d'apprentissage en profondeur, ce n'était pas le cas 0:34 comprendre la tâche à accomplir et était 0:36 mal dans de nombreux cas, cela ne devrait pas être un 0:39 problème surtout si nous ajoutons un avertissement 0:41 dire que le modèle peut être faux et ne pas 0:43 faites-lui confiance aveuglément comme personne 0:45 nous avons fait confiance à Wikipedia, nous ne pouvions pas le mettre comme 0:48 une référence dans les projets de lycée 0:50 problème était que Galactica avait tort et 0:52 biaisé mais sonnait juste et utératif 0:55 encore le modèle est disponible pour 0:57 chercheurs et je crois qu'il est important 0:59 garder bit open source comme un autre de 1:02 mes amis ont partagé tout le drame autour 1:04 ce nouveau modèle semble un peu excessif de 1:06 Bien sûr, le modèle n'est pas parfait, tout comme 1:08 tous les autres qui sont actuellement disponibles 1:10 en ligne nous en avons besoin en ligne pour tester son 1:13 limites travailler dessus et l'améliorer nous 1:16 devrait voir ces types de fabrications 1:18 en tant qu'étudiants et permettre les erreurs et 1:21 améliorations sans crainte d'être 1:22 fermé ou annulé de toute façon nous ne le sommes pas 1:26 ici pour en discuter, espérons-le 1:28 revenez bientôt en ligne, nous sommes ici pour voir 1h30 ce qu'est ou était Galactica et comment il 1:33 pourrait réaliser des critiques d'articles écrits 1:35 code maths et plus fondamentalement Galactica 1:39 est un grand modèle de langage de taille 1:41 comparable à gpt3 mais spécialisé sur 1:44 connaissances scientifiques plus précisément 1:46 a été formé sur un grand et organisé 1:48 Corpus de connaissances scientifiques comprenant 1:50 plus de 48 millions de papiers manuels scolaires et 1:54 notes de cours des millions de composés et 1:56 sites scientifiques sur les protéines 1:58 encyclopédies et plus encore car elles mettent en évidence 2:00 les données étaient de haute qualité et hautement 2:03 organisé qui est l'un des grands 2:05 différence avec gpt3 Donc en théorie 2:08 Galactica contient à peu près tout 2:10 La connaissance scientifique de l'humanité imagine 2:12 avoir une mémoire incroyable et le temps de 2:15 lire des millions de recherches en se souvenant 2:18 la plupart d'entre eux, c'est Galactica 2:21 on dirait que sa mémoire n'est pas si bonne 2:23 après tout et ça mélange tout même 2:25 bien que nous puissions supposer que la plupart des informations 2:27 présent dans l'ensemble de données d'entraînement était 2:29 précis même en considérant tous les appareils 2:31 et les échecs Galactica reste joli 2:34 puissant et surpasse à peu près tous 2:36 d'autres approches scientifiques 2:39 tâches ce n'est tout simplement pas suffisant pour un produit 2:41 nous pouvons avoir confiance en c'est toujours 2:44 ça vaut le coup de comprendre comment ça marche 2:46 surtout parce que ça va revenir 2:48 encore plus puissant dès que nous 2:51 Galactica mentionné est une grande langue 2:53 modèle similaire à gpt3 ou Bloom 2:55 spécialement formé pour comme on dit 2:58 organiser la science il y a aussi beaucoup de 3:01 ingénierie en cours dans ce modèle 3:03 permettant tant de polyvalence dans son 3:05 entrées et sorties comme spéciales 3:07 tokenisation des citations ou des protéines 3:09 séquences dans lesquelles vous pouvez en savoir plus 3:11 leur papier lié ci-dessous leur 3:13 l'effort de tokenisation est de loin le 3:15 plus grande contribution de ce travail 3:17 tokensation signifie essentiellement la façon dont le 3:20 le modèle verra les données au lieu des mots 3:23 maths ou formes que nous comprenons je 3:26 partager une vidéo sur l'intégration et 3:28 tokenisation plus tard cette semaine, donc si cela 3h30 ça a l'air intéressant restez à l'écoute pour ça 3:33 et abonnez vous pour ne rien rater alors acceptez 3:35 cette étrange symbolique et 3:37 étapes de prétraitement qu'est-ce que Galactica 3:39 et que fait-il après avoir pris le 3:42 mots ou différentes entrées scientifiques et 3:44 le préparer pour le modèle en faisant 3:46 tokenisation pas de surprise Galactica est 3:50 encore un autre transformateur basé 3:52 architecture comme gpt3 avec quelques 3:55 variations dont la tokenisation 3:57 différences donc je vous invite définitivement 3:59 à l'une des nombreuses vidéos que j'ai ou certains 4:02 de mes amis fait couvrant le 4:04 Architectures de transformateur que je n'obtiendrai pas 4:06 dans la façon dont ils fonctionnent une fois de plus la seconde 4:09 différence majeure entre Galactica et 4:11 d'autres grands modèles de langage est ce qu'ils 4:13 appeler l'invite de pré-formation cela signifie 4:16 qu'ils incluront des invites extraites 4:18 à partir de l'ensemble de données d'entraînement aux côtés du 4:21 données elles-mêmes dont il a été démontré qu'elles 4:23 maximiser la généralité du modèle 4:25 tout en améliorant les performances sur certaines tâches 4:28 d'intérêt et c'est à peu près tout comme 4:31 J'ai dit que l'architecture est très similaire 4:33 à ce que vous savez déjà et surtout le 4:35 les programmes de formation et de prétraitement varient 4:37 ce qui montre que le modèle n'est pas 4:39 tout sauf comment nous prêchons à travers le 4:41 les données pour cela pourraient même avoir de l'importance 4:43 plus vous pouvez essentiellement voir le 4:45 différence entre gpt3 et Galactica comme 4:48 le même étudiant avec une mauvaise science 4:49 professeur contre un bon il a le 4:52 mêmes capacités et ressources que 4:55 l'enseignant vient de le rendre plus accessible et 4:57 compréhensible pour lui bien sûr cela 4:59 n'était qu'un aperçu de l'article et je 5:02 recommande fortement de le lire il y a 5:04 des tonnes de détails sur les multiples 5:06 astuces d'ingénierie qu'ils ont mises en œuvre 5:08 ainsi que les détails de l'analyse des résultats sur 5:11 toutes les tâches auxquelles ils s'adonnent à l'aide du 5:13 modèle et comment il a compris l'entrée 5:15 les données et ses prédictions ses limites 5:18 préjugés et plus j'espère que vous avez apprécié 5:21 cette vidéo et je vous verrai la semaine prochaine 5:23 avec un autre papier étonnant et un spécial vidéo couvrant ce que sont les incorporations