eDiffi, le modèle le plus récent de NVIDIA, génère des images plus belles et plus précises que toutes les approches précédentes comme DALLE 2 ou Stable Diffusion. eDiffi comprend mieux le texte que vous envoyez et est plus personnalisable, ajoutant une fonctionnalité que nous avons vue dans un article précédent de NVIDIA : l'outil de peinture. En savoir plus dans la vidéo...
Références
►Lire l'article complet :
► Balaji, Y. et al., 2022, eDiffi : Modèles de diffusion texte-image avec un ensemble de débruiteurs experts,
►Page du projet :
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :
Transcription vidéo
0:06 la nouvelle approche de pointe pour 0:08 synthèse d'image il génère mieux 0:10 des images plus belles et plus précises que 0:13 toutes les approches précédentes comme Delhi 2 ou 0:15 diffusion stable soit s'il vaut mieux 0:17 comprend le texte que vous envoyez et est 0:19 plus personnalisable en ajoutant une nouvelle fonctionnalité 0:21 nous avons vu dans un article précédent de Nvidia 0:23 l'outil de peinture comme ils le voient, vous pouvez 0:26 peindre avec des mots en bref cela signifie que vous 0:29 peut entrer quelques sujets et peindre dans 0:32 l'image ce qui devrait apparaître ici et 0:34 vous permettant de créer beaucoup plus 0:36 images personnalisées par rapport à un aléatoire 0:39 génération suite à une invite c'est 0:41 le prochain niveau vous permettant de jolie 0:43 beaucoup obtenir l'image exacte que vous avez dans 0:45 l'esprit en dessinant simplement un horrible rapide 0:47 esquisser quelque chose que même moi je peux faire comme je 0:50 mentionné que les résultats ne sont pas seulement Sota 0:52 et plus beau que la diffusion stable 0:55 mais ils sont aussi beaucoup plus contrôlables 0:57 bien sûr, c'est un cas d'utilisation différent car 0:59 il a besoin d'un peu plus de travail et d'un plus clair 1:02 ID à l'esprit pour créer un tel brouillon, mais 1:04 c'est définitivement super très excitant et 1:06 intéressant c'est aussi pourquoi je voulais 1:08 couvrez-le sur ma chaîne car ce n'est pas 1:11 simplement un meilleur modèle, mais aussi un 1:13 approche différente avec beaucoup plus 1:15 contrôle sur la sortie que l'outil n'est pas 1:17 disponible encore malheureusement mais je suis sûr 1:19 j'espère que ce sera bientôt d'ailleurs 1:22 doit absolument s'abonner au 1:23 chaîne et suivez-moi sur Twitter à quoi 1:25 dites bonjour si vous aimez ce genre de vidéo 1:27 et souhaite avoir accès facilement 1h30 des nouvelles digestes à ce sujet 1:32 terrain compliqué une autre victoire qu'ils 1:34 vous permettre d'avoir plus de contrôle dans ce 1:37 le nouveau modèle utilise la même fonctionnalité 1:39 on a vu mais autrement effectivement le modèle 1:42 génère des images Guidé par une phrase 1:44 mais il peut aussi être influencé à l'aide d'un 1:47 croquis rapide donc il faut essentiellement un 1:49 image et un texte comme entrées cela signifie 1:52 vous pouvez faire d'autres choses comme il comprend 1:54 images ici, ils en tirent parti 1:56 capacités en développant un style 1:58 approche de transfert où vous pouvez 2:00 influencer le style de l'image 2:02 processus de génération donnant une image avec 2:04 un style particulier bien avec votre 2:06 saisie de texte c'est super cool et juste 2:09 regardez les résultats pour lesquels ils parlent 2:11 eux-mêmes c'est incroyable de battre les deux 2:14 Modèles et image de transfert de style Sota 2:16 modèles de synthèse avec une seule approche 2:18 maintenant la question est de savoir comment Nvidia pourrait 2:22 développer un modèle qui crée mieux 2:23 la recherche d'images permet plus de contrôle sur 2:26 à la fois le style et la structure de l'image 2:29 ainsi qu'une meilleure compréhension et 2:31 représentant ce que vous voulez réellement dans 2:34 ton texte bien ils changent le typique 2:36 architecture de diffusion de deux manières d'abord 2:39 ils encodent le texte en utilisant deux 2:41 approches que j'ai déjà couvertes sur le 2:43 canal que nous appelons clip et T5 2:46 encodeurs cela signifie qu'ils utiliseront 2:48 modèles pré-formés pour prendre du texte et 2:50 créer divers encastrements axés sur 2:52 différentes fonctionnalités au fur et à mesure de leur formation 2:55 et se sont comportés différemment et les significations sont 2:57 juste des représentations maximisant ce que 3:00 phrase signifie en fait pour le 3:01 algorithme ou la machine pour comprendre 3:04 en ce qui concerne l'image d'entrée qu'ils viennent 3:06 utilisez également les intégrations de clips 3:08 encodant essentiellement l'image de sorte que le 3:11 modèle peut le comprendre que vous pouvez 3:13 en savoir plus dans mes autres vidéos 3:14 couvrant les modèles génératifs tels qu'ils sont 3:16 à peu près tout construit sur le clip c'est 3:19 ce qui leur permet d'avoir plus de contrôle 3:21 sur la sortie ainsi que traitées 3:23 du texte et des images plutôt que du texte uniquement 3:25 la deuxième modification utilise un 3:28 Cascade de modèles de diffusion au lieu de 3:31 en réutilisant le même itérativement comme nous 3:33 font généralement avec des modèles basés sur la diffusion 3:35 ici les modèles d'utilisation formés pour le 3:38 partie spécifique du processus de génération 3:39 ce qui signifie que chaque modèle n'a pas à 3:42 être aussi général que la diffusion régulière 3:44 débruiteur puisque chaque modèle doit se concentrer 3:46 sur une partie spécifique du processus, il peut 3:49 être beaucoup mieux dans ce domaine, ils l'utilisent 3:51 approche parce qu'ils ont observé que 3:52 les modèles de débruitage semblaient utiliser le texte 3:55 encastrements beaucoup plus pour orienter son 3:57 génération vers le début de la 3:59 processus, puis l'utiliser de moins en moins pour 4:02 concentrez-vous sur la qualité de sortie et la fidélité 4:05 ceci amène naturellement l'hypothèse 4:07 que la réutilisation du même modèle de débruitage 4:09 tout au long du processus pourrait ne pas 4:11 être le meilleur ID puisqu'il est automatiquement 4:13 se concentre sur différentes tâches et nous savons 4:15 qu'un généraliste est loin d'être un expert 4:18 niveau à toutes les tâches pourquoi ne pas en utiliser quelques-uns 4:20 experts au lieu d'un généraliste pour obtenir 4:23 de bien meilleurs résultats donc c'est ce qu'ils 4:25 fait et pourquoi ils les appellent débruitage 4:28 experts et la principale raison à cela 4h30 améliore les performances en termes de qualité et 4:32 fidélité le reste de la 4:34 l'architecture est assez similaire à d'autres 4:36 approches de mise à l'échelle des résultats finaux 4:38 avec d'autres modèles pour obtenir un high 4:40 définition image finale l'image et 4:43 les champs de synthèse vidéo commencent à peine 4:45 fou de nos jours et nous voyons 4:47 des résultats impressionnants sortent chaque semaine 4:49 Je suis super excité pour les prochaines versions 4:51 et j'aime voir différentes approches 4:53 avec à la fois des manières innovantes d'aborder 4:55 le problème et aussi aller pour différents 4:57 cas d'utilisation comme une personne formidable l'a dit un jour 5:01 quel moment pour être en vie j'espère que vous aimez 5:04 ce bref aperçu de l'approche 5:06 un peu plus haut niveau que ce que j'ai l'habitude 5:08 faire comme il faut la plupart des pièces que j'ai déjà 5:10 couverts dans de nombreuses vidéos et modifiés 5:12 qu'ils agissent différemment je vous invite à 5:15 regardez ma vidéo de diffusion stable pour apprendre 5:17 un peu plus sur l'approche de diffusion 5:19 lui-même et lire le papier de nvidia pour 5:21 en savoir plus sur cette approche spécifique 5:23 et sa mise en œuvre je vous verrai 5:26 la semaine prochaine avec un autre papier incroyable 5:32 étranger 5:36 [Musique]