Já vimos modelos antes capazes de pegar uma frase e . Também vimos outras aprendendo conceitos específicos como um objeto ou estilo particular. Na semana passada, a Meta publicou o que abordei, que permite gerar um pequeno vídeo também a partir de uma frase de texto. Os resultados ainda não são perfeitos, mas o progresso que fizemos no campo desde o ano passado é simplesmente incrível. Esta semana damos mais um passo em frente. Aqui está o DreamFusion, um novo modelo de pesquisa do Google que pode entender uma frase o suficiente para gerar um modelo 3D dela. Você pode ver isso como um ou , mas em 3D. Quão legal é isso?! Nós realmente não podemos torná-lo muito mais legal. Mas o que é ainda mais fascinante é como isso funciona. Vamos mergulhar nisso...
Referências
►Leia o artigo completo:
►Poole, B., Jain, A., Barron, JT e Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. pré-impressão arXiv arXiv:2209.14988.
►Site do projeto:
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):
Transcrição de vídeo
0:02 vimos modelos capazes de tirar uma 0:04 sentença e gerar imagens, em seguida, outros 0:07 abordagens para manipular o gerado 0:09 imagens aprendendo conceitos específicos 0:11 como um objeto ou um estilo particular 0:13 semana passada meta publicou o make a 0:16 modelo de vídeo que abordei que permite 0:18 você para gerar um pequeno vídeo também de 0:20 uma frase de texto, os resultados não são 0:22 perfeito ainda, mas o progresso que fizemos 0:24 no campo desde o ano passado é apenas 0:26 incrível esta semana fazemos outro 0:28 passo em frente aqui está o sonho Fusion um novo 0:32 modelo de pesquisa do Google que pode 0:34 entender uma frase o suficiente para gerar 0:36 um modelo 3D dele, você pode ver isso como 0:39 uma difusão diária ou estável, mas em 3D 0:41 quão legal é que não podemos fazer muito 0:44 mais legal, mas o que é ainda mais fascinante 0:46 é assim que funciona, vamos mergulhar nisso, mas 0:49 primeiro me dê alguns segundos para falar 0:51 sobre um assunto relacionado visão computacional 0:53 você vai querer ouvir isso se você estiver em 0:55 este campo também para este vídeo estou 0:57 parceria com a encord the online 1:00 plataforma de aprendizado para visão computacional 1:01 os dados são uma das partes mais importantes 1:04 de criar visão computacional inovadora 1:06 modelo é por isso que a plataforma encode tem 1:09 foi construído a partir do zero para fazer 1:10 a criação de dados de treinamento e 1:12 teste de modelos de aprendizado de máquina 1:14 mais rápido do que nunca, o encord faz 1:17 isso de duas maneiras primeiro faz isso 1:19 mais fácil de gerenciar anotar e avaliar 1:22 dados de treinamento através de uma variedade de 1:24 ferramentas de anotação colaborativas e 1:25 recursos de automação codificados em segundo lugar 1:28 oferece acesso às suas APIs de fluxos de trabalho de controle de qualidade 1:31 e SDK para que você possa criar seu próprio 1:33 Pipelines de aprendizado ativo acelerando 1:35 desenvolvimento de modelo e usando encode 1:38 você não precisa perder tempo construindo 1:39 suas próprias ferramentas de anotação permitindo que você 1:41 concentre-se em obter os dados certos 1:44 seus modelos se isso soa interessante 1:46 clique no primeiro link abaixo para obter 1:48 um teste gratuito de 28 dias do encode exclusivo 1:51 para nossa comunidade 1:54 se você tem seguido meu sonho de trabalho 1:56 A fusão é bastante simples, basicamente usa 1:59 dois modelos já cobri Nerfs e 2:02 um dos modelos de texto para imagem em seus 2:04 caso seja o modelo Imogen mas e você 2:07 fará como difusão estável ou Dolly 2:09 como você sabe se você tem sido um bom 2:11 aluno e assisti os vídeos anteriores 2:12 Nerfs são um tipo de modelo usado para renderizar 2:15 Cenas 3D gerando Radiância neural 2:18 campo de uma ou mais imagens de um 2:21 objeto, mas então como você pode gerar um 2:23 Renderização 3D de texto se o modelo Nerf 2:26 só funciona com imagens bem que usamos 2:29 imagine a outra IA para gerar a imagem 2:31 variações do que é preciso e por que 2:34 fazemos isso em vez de diretamente 2:36 gerar modelos 3D a partir de texto porque 2:38 exigirá enormes conjuntos de dados de 3D 2:41 dados junto com seus associados 2:43 legendas para o nosso modelo ser treinado 2:46 o que será muito difícil de ter 2:48 em vez disso, usamos um texto pré-treinado para 2:50 modelo de imagem com dados muito menos complexos 2:53 juntos e adaptamos para 3D para que 2:56 não requer nenhum dado 3D para ser 2:57 treinado apenas em uma IA pré-existente para 3:00 gerar imagens é muito legal como 3:03 podemos reutilizar tecnologias poderosas para 3:05 novas tarefas como esta ao interpretar 3:07 o problema de forma diferente, então se começarmos 3:09 desde o início temos um modelo Nerf 3:12 como expliquei em vídeos anteriores este 3:14 tipo de modelo tira imagens para prever 3:17 os pixels em cada visão nova, criando uma 3:20 Modelo 3D aprendendo com pares de imagens de 3:22 o mesmo objeto com diferentes 3:24 pontos de vista no nosso caso não começamos 3:26 com imagens diretamente, começamos com o 3:28 texto e amostra de uma exibição aleatória 3:30 orientação queremos gerar uma imagem 3:33 pois basicamente estamos tentando criar um 3:35 Modelo 3D gerando imagens de todos 3:38 possíveis ângulos que uma câmera poderia cobrir 3:40 olhando ao redor do objeto e adivinhando 3:42 os pixels cores densidades luz 3:45 Reflexões Etc tudo o que é necessário para 3:48 torná-lo realista, então começamos 3:50 com uma legenda e adicione um pequeno ajuste 3:52 dependendo da câmera aleatória 3:54 ponto de vista que queremos gerar para 3:56 exemplo, podemos querer gerar uma frente 3:58 vista para que possamos anexar a vista frontal a 4:01 a legenda do outro lado usamos o 4:03 mesmo ângulo e parâmetros da câmera para 4:05 modelo Nerf inicial não treinado para 4:09 prever a primeira renderização, então nós 4:11 gerar uma versão de imagem Guiado por nosso 4:13 legenda e renderização inicial com adicionado 4:17 ruído usando imagine nosso texto pré-treinado 4:20 ao modelo de imagem que expliquei melhor 4:22 na minha imagem e vídeo se você está curioso 4:24 para ver como ele faz isso para que nossa imagem e 4:26 modelo será guiado pela entrada de texto 4:28 bem como a renderização atual do 4:30 objeto com ruído adicionado aqui nós adicionamos 4:33 ruído porque é isso que a imagem e 4:36 módulo pode receber como entrada, ele precisa ser 4:38 parte de uma distribuição de ruído 4:40 entende que usamos o modelo para gerar 4:43 uma imagem de maior qualidade adicione a imagem 4:45 usado para gerá-lo e remover o ruído 4:48 Adicionamos manualmente para usar este resultado para 4:51 orientar e melhorar nosso modelo Nerf para o 4:54 próximo passo fazemos tudo isso para melhor 4:55 entenda onde na imagem o Nerf 4:57 modelo deve centrar a sua atenção 4:59 produzir melhores resultados para a próxima etapa 5:01 e repetimos isso até que o modelo 3D esteja 5:05 satisfazendo o suficiente, você pode exportar 5:07 este modelo para malhar e usá-lo em uma cena 5:10 de sua escolha e antes de alguns de vocês 5:12 pergunte não, você não precisa treinar novamente o 5:15 modelo de gerador de imagem como eles dizem 5:17 bem no papel ele apenas age como um 5:19 crítico congelado que prevê o espaço da imagem 5:21 edita e voira assim sonha Fusion 5:25 gera renderização 3D a partir de entradas de texto 5:28 se você gostaria de ter um conhecimento mais profundo 5:30 compreensão da abordagem tem um 5:32 veja meus vídeos cobrindo nervos e 5:34 Imogen também convido você a ler seus 5:36 papel para obter mais detalhes sobre este específico 5:39 método obrigado por assistir todo 5:41 vídeo e vejo você na próxima semana com 5:44 outro papel incrível