eDiffi, o modelo mais recente da NVIDIA, gera imagens de melhor aparência e mais precisas do que todas as abordagens anteriores, como DALLE 2 ou Stable Diffusion. O eDiffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: a ferramenta Painter. Saiba mais no vídeo...
►Leia o artigo completo:
► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers,
►Página do projeto:
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):
0:06
a nova abordagem de ponta para
0:08
síntese de imagem que gera melhor
0:10
olhando e imagens mais precisas do que
0:13
todas as abordagens anteriores, como Delhi 2 ou
0:15
difusão estável ou se ele melhor
0:17
entende o texto que você envia e é
0:19
mais personalizável adicionando um novo recurso
0:21
vimos em um artigo anterior da Nvidia
0:23
a ferramenta do pintor como eles veem que você pode
0:26
pintar com palavras em resumo, isso significa você
0:29
pode inserir alguns assuntos e pintar
0:32
a imagem o que deve aparecer aqui e
0:34
permitindo que você crie muito mais
0:36
imagens personalizadas em comparação com um aleatório
0:39
geração seguindo um prompt isso é
0:41
o próximo nível permitindo que você fique bonita
0:43
obter a imagem exata que você tem em
0:45
mente simplesmente desenhando um rápido horrível
0:47
esboce algo que até eu posso fazer como eu
0:50
mencionou os resultados não são apenas Sota
0:52
e mais bonito do que a difusão estável
0:55
mas eles também são muito mais controláveis
0:57
é claro que é um caso de uso diferente, pois
0:59
ele precisa de um pouco mais de trabalho e um mais claro
1:02
ID em mente para criar tal rascunho, mas
1:04
é definitivamente super emocionante e
1:06
interessante é também por isso que eu queria
1:08
cobrir no meu canal já que não é
1:11
apenas um modelo melhor, mas também um
1:13
abordagem diferente com muito mais
1:15
controle sobre a saída da ferramenta não é
1:17
disponível ainda, infelizmente, mas tenho certeza
1:19
espero que seja em breve pelo jeito que você
1:22
definitivamente deveria se inscrever no
1:23
canal e siga-me no Twitter em que
1:25
diga oi se você gosta desse tipo de vídeo
1:27
e gostaria de ter acesso a facilmente
1:30
notícias digeríveis sobre isso fortemente
1:32
campo complicado outra vitória que eles
1:34
permitem que você tenha mais controle neste
1:37
novo modelo é usando o mesmo recurso
1:39
vimos, mas de forma diferente, de fato, o modelo
1:42
gera imagens Guiado por uma frase
1:44
mas também pode ser influenciado usando um
1:47
esboço rápido, então basicamente leva um
1:49
imagem e um texto como entradas isso significa
1:52
você pode fazer outras coisas como ele entende
1:54
imagens aqui eles aproveitam isso
1:56
capacidade desenvolvendo um estilo
1:58
abordagem de transferência onde você pode
2:00
influenciar o estilo da imagem
2:02
processo de geração dando uma imagem com
2:04
um estilo particular bem junto com o seu
2:06
entrada de texto isso é super legal e apenas
2:09
veja os resultados que eles falam
2:11
eles mesmos é incrível vencer ambos
2:14
Modelos e imagem de transferência de estilo Sota
2:16
modelos de síntese com uma única abordagem
2:18
agora a questão é como a Nvidia poderia
2:22
desenvolver um modelo que crie melhores
2:23
olhar imagens permite mais controle sobre
2:26
tanto o estilo quanto a estrutura da imagem
2:29
bem como uma melhor compreensão e
2:31
representando o que você realmente quer em
2:34
seu texto bem, eles mudam o típico
2:36
arquitetura de difusão de duas maneiras primeiro
2:39
eles codificam o texto usando dois
2:41
abordagens que eu já abordei no
2:43
canal que nos referimos como clipe e T5
2:46
codificadores, isso significa que eles usarão
2:48
modelos pré-treinados para receber texto e
2:50
criar várias incorporações com foco em
2:52
recursos diferentes à medida que são treinados
2:55
e se comportou de maneira diferente e os significados são
2:57
apenas representações maximizando o que o
3:00
frase realmente significa para o
3:01
algoritmo ou a máquina para entender
3:04
em relação à imagem de entrada que eles apenas
3:06
use os embeddings de clipes também
3:08
basicamente codificando a imagem para que o
3:11
modelo pode entendê-lo que você pode
3:13
saiba mais sobre em meus outros vídeos
3:14
abrangendo modelos generativos como eles são
3:16
praticamente tudo construído em clipe isso é
3:19
o que lhes permite ter mais controle
3:21
sobre a saída, bem como processado
3:23
texto e imagens em vez de apenas texto
3:25
a segunda modificação está usando um
3:28
Cascata de modelos de difusão em vez de
3:31
reutilizando o mesmo iterativamente como nós
3:33
geralmente fazem com modelos baseados em difusão
3:35
aqui o uso de modelos treinados para o
3:38
parte específica do processo generativo
3:39
o que significa que cada modelo não precisa
3:42
ser tão geral quanto a difusão regular
3:44
denoiser já que cada modelo tem que se concentrar
3:46
em uma parte específica do processo pode
3:49
ser muito melhor nisso eles usam isso
3:51
abordagem porque observaram que o
3:52
modelos de redução de ruído pareciam usar o texto
3:55
embeddings muito mais para orientar sua
3:57
geração no início do
3:59
processo e, em seguida, usá-lo cada vez menos para
4:02
foco na qualidade de saída e Fidelidade o
4:05
isso naturalmente traz a hipótese
4:07
que reutilizar o mesmo modelo de redução de ruído
4:09
ao longo de todo o processo pode não
4:11
ser o melhor ID, pois automaticamente
4:13
se concentra em diferentes tarefas e sabemos
4:15
que um generalista está longe de ser um especialista
4:18
nível em todas as tarefas, por que não usar alguns
4:20
especialistas em vez de um generalista para obter
4:23
resultados muito melhores, então é isso que eles
4:25
fizeram e por que eles os chamam de denoising
4:28
especialistas e a principal razão para isso
4:30
melhora o desempenho em qualidade e
4:32
fidelidade o resto do
4:34
A arquitetura é bem parecida com outras
4:36
abordagens de dimensionamento dos resultados finais
4:38
com outros modelos para obter uma alta
4:40
definição imagem final a imagem e
4:43
campos de síntese de vídeo estão ficando
4:45
louco hoje em dia e estamos vendo
4:47
resultados impressionantes saindo toda semana
4:49
Estou super ansiosa pelos próximos lançamentos
4:51
e adoro ver abordagens diferentes
4:53
com ambas as formas inovadoras de lidar
4:55
o problema e também indo para diferentes
4:57
casos de uso como uma grande pessoa disse uma vez
5:01
que hora de estar vivo espero que gostem
5:04
esta rápida visão geral da abordagem a
5:06
nível um pouco mais alto do que eu normalmente
5:08
faça o que for preciso a maioria das peças eu já
5:10
coberto em vários vídeos e alterado
5:12
a agirem de forma diferente, convido você a
5:15
assista ao meu vídeo de difusão estável para aprender
5:17
um pouco mais sobre a abordagem de difusão
5:19
em si e leia o papel da nvidia para
5:21
saiba mais sobre essa abordagem específica
5:23
e sua implementação nos vemos
5:26
semana que vem com outro paper incrível
5:32
estrangeiro
5:36
[Música]