2,622 leituras

Galactica é um modelo de IA treinado em 120 bilhões de parâmetros

por Louis Bouchard6m2022/11/26

Muito longo; Para ler

MetaAI e Papers with Code anunciaram o lançamento do Galactica, um grande modelo de linguagem de código aberto e revolucionário, treinado em conhecimento científico com 120 bilhões de parâmetros. O modelo pode escrever whitepapers, revisões, páginas da Wikipédia e código. Sabe citar e escrever equações. É um grande negócio para IA e ciência. Em 17 de novembro, a Galactica foi encerrada porque não entendia a tarefa em questão e estava errada em muitos casos. Ainda assim, o modelo está disponível para pesquisadores e acredito que seja importante mantê-lo de código aberto.

featured image - Galactica é um modelo de IA treinado em 120 bilhões de parâmetros

Em 15 de novembro, MetaAI e Papers with Code anunciaram o lançamento do Galactica, um grande modelo de linguagem de código aberto e revolucionário, treinado em conhecimento científico com 120 bilhões de parâmetros.

Como um de meus amigos , o modelo pode escrever whitepapers, revisões, páginas da Wikipedia e código. Sabe citar e escrever equações. É um grande negócio para IA e ciência. Em 17 de novembro, a Galactica foi fechada. Por quê? Porque, como acontece com todos os modelos de aprendizado profundo, ele não entendia a tarefa em questão e estava errado em muitos casos. Isso não deve ser um problema, especialmente se adicionarmos um aviso dizendo que o modelo pode estar errado e não devemos confiar nele cegamente. Assim como ninguém confiava na Wikipédia, não poderíamos colocar isso como referência em projetos do Ensino Médio. A questão é que a . Ainda assim, o modelo está disponível para pesquisadores e acredito que seja importante mantê-lo de código aberto. Como outro amigo meu compartilhou, todo o drama em torno do novo modelo parece um pouco excessivo. Claro, o modelo não é perfeito, assim como todos os outros que estão atualmente disponíveis online. Precisamos dele online para testar suas limitações, trabalhar nele e melhorá-lo. Devemos ver esses tipos de publicações como alunos e permitir erros e melhorias sem medo de ser fechado ou cancelado.

De qualquer forma, não estamos aqui para discutir isso. Esperançosamente, . Estamos aqui para ver o que a Galactica é, ou era, e como ela poderia escrever artigos, análises, códigos e muito mais…

Saiba mais no vídeo

Referências

►Leia o artigo completo:
►Taylor et al., 2022: Galactica,
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):

Transcrição de vídeo

0:00 em 15 de novembro Metairie e papéis 0:03 com código anunciou o lançamento de 0:04 galatica um divisor de águas open source 0:07 modelo de linguagem grande treinado em 0:09 conhecimento científico com 120 bilhões 0:12 parâmetros como um dos meus amigos compartilhou 0:14 no Twitter a modelo pode escrever branco 0:16 papers revisam páginas e códigos da Wikipédia 0:19 sabe citar e escrever 0:22 equações é realmente um grande 0:24 acordo para IA e ciência em 17 de novembro 0:28 A Galactica foi fechada porque porque como 0:31 com todos os modelos de aprendizado profundo, não 0:34 compreender a tarefa em mãos e foi 0:36 errado em muitos casos isso não deveria ser um 0:39 problema, especialmente se adicionarmos um aviso 0:41 dizendo que o modelo pode estar errado e não 0:43 confie cegamente como ninguém 0:45 Wikipedia confiável, não poderíamos colocá-lo como 0:48 referência em projetos para o ensino médio o 0:50 questão era que a Galactica estava errada e 0:52 tendencioso, mas parecia certo e uteritativo 0:55 ainda o modelo está disponível para 0:57 pesquisadores e acho importante 0:59 para manter o código aberto como outro dos 1:02 meus amigos compartilharam todo o drama ao redor 1:04 este novo modelo parece um pouco excessivo de 1:06 claro que o modelo não é perfeito assim como 1:08 todos os outros que estão disponíveis no momento 1:10 online precisamos dele online para testar 1:13 limitações trabalhar nele e melhorá-lo nós 1:16 deveria ver esses tipos de fabricações 1:18 como alunos e permitir erros e 1:21 melhorias sem medo de ser 1:22 desligar ou cancelar de qualquer maneira, não estamos 1:26 aqui para discutir isso espero que sim 1:28 estar de volta online em breve estamos aqui para ver 1:30 o que Galactica é ou foi e como 1:33 poderia conseguir escrever revisões de artigos 1:35 matemática de código e mais basicamente Galactica 1:39 é um modelo de linguagem grande com um tamanho 1:41 comparável ao gpt3, mas especializado em 1:44 conhecimento científico mais precisamente 1:46 foi treinado em um grande e com curadoria 1:48 Corpus de conhecimento científico, incluindo 1:50 mais de 48 milhões de livros didáticos e 1:54 palestra observa milhões de compostos e 1:56 sites científicos de proteínas 1:58 enciclopédias e muito mais à medida que destacam 2:00 dados eram de alta qualidade e altamente 2:03 curadoria que é uma das grandes 2:05 diferença com gpt3 Então, em teoria 2:08 Galactica contém praticamente todos os 2:10 O conhecimento científico da humanidade imagina 2:12 ter uma memória incrível e tempo para 2:15 leia milhões de pesquisas lembrando 2:18 a maior parte bem, isso é Galactica 2:21 parece que sua memória não é tão boa 2:23 afinal e mistura tudo mesmo 2:25 embora possamos supor que a maioria das informações 2:27 presente no conjunto de dados de treinamento foi 2:29 preciso mesmo considerando todos os dispositivos 2:31 e falhas Galactica permanece bonita 2:34 poderoso e supera praticamente todos 2:36 outras abordagens para assuntos científicos relacionados 2:39 tarefas não é suficiente para um produto 2:41 podemos ter confiança em ainda é 2:44 vale a pena entender como funciona 2:46 especialmente porque ele vai voltar 2:48 ainda mais poderoso assim que nós 2:51 mencionado Galactica é uma linguagem grande 2:53 modelo semelhante ao gpt3 ou Bloom 2:55 especificamente treinado para como eles dizem 2:58 organizar a ciência também há muito 3:01 engenharia acontecendo neste modelo 3:03 permitindo tanta versatilidade em sua 3:05 entradas e saídas como especiais 3:07 tokenização de citações ou proteínas 3:09 sequências que você pode aprender mais em 3:11 seu papel linkado abaixo de seu 3:13 esforço de tokenização é de longe o 3:15 maior contribuição deste trabalho 3:17 tokenização basicamente significa a forma como o 3:20 modelo verá os dados em vez de palavras 3:23 matemática ou formas que entendemos eu 3:26 compartilhar um vídeo sobre incorporação e 3:28 tokenização no final desta semana, então se isso 3:30 parece interessante fique atento para isso 3:33 e se inscreva para não perder então aceite 3:35 essa tokenização estranha e 3:37 etapas de pré-processamento o que é Galactica 3:39 e o que ele faz depois de tomar o 3:42 palavras ou diferentes entradas científicas e 3:44 preparando-o para o modelo fazendo 3:46 tokenização não é surpresa que a Galactica seja 3:50 mais um Transformer baseado 3:52 arquitetura como gpt3 com um par de 3:55 variações, incluindo a tokenização 3:57 diferenças, então eu definitivamente convido você 3:59 para apenas um dos muitos vídeos que eu ou alguns 4:02 dos meus amigos fizeram a cobertura do 4:04 Arquiteturas transformadoras como eu não vou conseguir 4:06 em como eles funcionam mais uma vez o segundo 4:09 grande diferença entre Galactica e 4:11 outros grandes modelos de linguagem é o que eles 4:13 chame o prompt de pré-treinamento, isso significa 4:16 que eles incluirão prompts extraídos 4:18 a partir dos dados de treinamento definidos ao lado do 4:21 dados em si, que foi mostrado para 4:23 maximizar a generalidade do modelo 4:25 enquanto aumenta o desempenho em algumas tarefas 4:28 de interesse e é basicamente isso 4:31 Eu disse que a arquitetura é muito parecida 4:33 para o que você já sabe e principalmente o 4:35 esquemas de treinamento e pré-processamento variam 4:37 o que mostra que o modelo não é 4:39 tudo, menos como pregamos através do 4:41 dados para isso podem realmente importar mesmo 4:43 mais você pode basicamente ver o 4:45 diferença entre gpt3 e Galactica como 4:48 o mesmo aluno com uma ciência ruim 4:49 professor versus um bom tem o 4:52 mesmas capacidades e recursos que 4:55 professor apenas o tornou mais acessível e 4:57 compreensível para ele é claro que isso 4:59 foi apenas uma visão geral do papel e eu 5:02 recomendo vivamente a sua leitura existem 5:04 toneladas de detalhes sobre os múltiplos 5:06 truques de engenharia que eles implementaram 5:08 junto com detalhes de análise de resultados em 5:11 todas as tarefas que realizam usando o 5:13 modelo e como ele entendeu a entrada 5:15 dados e suas previsões suas limitações 5:18 preconceitos e muito mais espero que tenham gostado 5:21 este vídeo e até a próxima semana 5:23 com outro papel incrível e um especial vídeo sobre o que são embeddings

L O A D I N G
. . . comments & more!