Nous avons déjà vu des modèles capables de prendre une phrase et . Nous avons également vu d'autres en apprenant des concepts spécifiques comme un objet ou un style particulier. La semaine dernière, Meta a publié le que j'ai couvert, qui vous permet de générer une courte vidéo également à partir d'une phrase de texte. Les résultats ne sont pas encore parfaits, mais les progrès que nous avons réalisés sur le terrain depuis cette dernière année sont tout simplement incroyables. Cette semaine, nous franchissons une nouvelle étape. Voici DreamFusion, un nouveau modèle de Google Research capable de comprendre suffisamment une phrase pour en générer un modèle 3D. Vous pouvez voir cela comme un ou mais en 3D. À quel point cela est cool?! Nous ne pouvons pas vraiment le rendre beaucoup plus cool. Mais ce qui est encore plus fascinant, c'est comment cela fonctionne. Plongeons-y...
Références
►Lire l'article complet :
►Poole, B., Jain, A., Barron, JT et Mildenhall, B., 2022. DreamFusion : Text-to-3D using 2D Diffusion. prétirage arXiv arXiv:2209.14988.
►Site du projet :
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :
Transcription vidéo
0:02 nous avons vu des modèles capables de prendre un 0:04 phrase et générer des images puis d'autres 0:07 approches pour manipuler les données générées 0:09 images en apprenant des concepts spécifiques 0:11 comme un objet ou un style particulier 0:13 la semaine dernière, la méta a publié le make a 0:16 modèle vidéo que j'ai couvert qui permet 0:18 vous de générer une courte vidéo également à partir de 0:20 une phrase de texte les résultats ne sont pas 0:22 parfait encore mais les progrès que nous avons faits 0:24 sur le terrain depuis l'année dernière est juste 0:26 incroyable cette semaine on en fait une autre 0:28 un pas en avant voici dream Fusion un nouveau 0:32 Modèle de recherche Google qui peut 0:34 comprendre suffisamment une phrase pour générer 0:36 un modèle 3D à partir de celui-ci, vous pouvez le voir comme 0:39 une diffusion journalière ou stable mais en 3D 0:41 c'est cool qu'on ne puisse pas en faire beaucoup 0:44 plus cool mais ce qui est encore plus fascinant 0:46 c'est comme ça que ça marche plongeons dedans mais 0:49 donne moi d'abord quelques secondes pour parler 0:51 sur un sujet connexe vision par ordinateur 0:53 vous aurez envie d'entendre que si vous êtes dans 0:55 ce champ aussi pour cette vidéo je suis 0:57 en partenariat avec encord the online 1:00 plate-forme d'apprentissage pour la vision par ordinateur 1:01 les données sont l'une des parties les plus importantes 1:04 de créer une vision par ordinateur innovante 1:06 modèle c'est pourquoi la plate-forme d'encodage a 1:09 été construit à partir de zéro pour faire 1:10 la création de données d'entraînement et 1:12 test de modèles d'apprentissage automatique 1:14 plus rapide qu'il ne l'a jamais été, encord le fait 1:17 cela de deux manières d'abord 1:19 plus facile à gérer annoter et évaluer 1:22 données d'entraînement à travers une gamme de 1:24 outils d'annotation collaboratifs et 1:25 les fonctions d'automatisation encodent en second lieu 1:28 offre un accès à ses apis de workflows QA 1:31 et SDK afin que vous puissiez créer votre propre 1:33 Les pipelines d'apprentissage actif s'accélèrent 1:35 développement de modèles et en utilisant encode 1:38 vous n'avez pas besoin de perdre du temps à construire 1:39 vos propres outils d'annotation vous permettant 1:41 concentrez-vous sur l'intégration des bonnes données 1:44 vos modèles si cela semble intéressant 1:46 veuillez cliquer sur le premier lien ci-dessous pour obtenir 1:48 un essai gratuit de 28 jours d'encode exclusive 1:51 à notre communauté 1:54 si vous avez suivi mon rêve de travail 1:56 La fusion est assez simple, elle utilise essentiellement 1:59 deux modèles que j'ai déjà couverts Nerfs et 2:02 l'un des modèles de texte en image dans leur 2:04 cas c'est le modèle Imogen mais et vous 2:07 fera comme diffusion stable ou Dolly 2:09 comme vous le savez si vous avez été un bon 2:11 étudiant et regardé les vidéos précédentes 2:12 Les nerfs sont une sorte de modèle utilisé pour rendre 2:15 Scènes 3D en générant de la Radiance neuronale 2:18 champ d'une ou plusieurs images d'un 2:21 objet mais alors comment pouvez-vous générer un 2:23 Rendu 3D à partir du texte si le modèle Nerf 2:26 ne fonctionne qu'avec des images bien que nous utilisons 2:29 imagen l'autre IA pour générer l'image 2:31 variations de celui qu'il faut et pourquoi 2:34 faisons-nous cela au lieu de directement 2:36 générer des modèles 3D à partir de texte car 2:38 cela nécessitera d'énormes ensembles de données 3D 2:41 données avec leurs associés 2:43 légendes pour notre modèle à former sur 2:46 qui sera très difficile à avoir 2:48 à la place, nous utilisons un texte pré-formé pour 2:50 modèle d'image avec des données beaucoup moins complexes 2:53 ensemble et nous l'adaptons à la 3D pour qu'il 2:56 ne nécessite aucune donnée 3D pour être 2:57 formés uniquement sur une IA préexistante pour 3:00 générer des images c'est vraiment cool comment 3:03 nous pouvons réutiliser des technologies puissantes pour 3:05 de nouvelles tâches comme celle-ci lors de l'interprétation 3:07 le problème différemment donc si on commence 3:09 depuis le début nous avons un modèle Nerf 3:12 comme je l'ai expliqué dans les vidéos précédentes ceci 3:14 type de modèle prend des images pour prédire 3:17 les pixels de chaque nouvelle vue créant un 3:20 Modèle 3D en apprenant à partir de paires d'images de 3:22 le même objet avec différents 3:24 points de vue dans notre cas nous ne commençons pas 3:26 avec des images directement nous commençons par le 3:28 texte et exemple d'une vue aléatoire 3h30 orientation nous voulons générer une image 3:33 car fondamentalement, nous essayons de créer un 3:35 Modèle 3D en générant des images de tous 3:38 angles possibles qu'une caméra pourrait couvrir 3:40 regarder autour de l'objet et deviner 3:42 les pixels couleurs densités lumière 3:45 Reflets Etc tout ce qu'il faut pour 3:48 faire paraître réaliste donc nous commençons 3:50 avec une légende et ajouter un petit ajustement à 3:52 cela dépend de la caméra aléatoire 3:54 point de vue que nous voulons générer pour 3:56 exemple, nous pouvons vouloir générer un front 3:58 vue afin que nous ajoutions la vue de face à 4:01 la légende de l'autre côté, nous utilisons le 4:03 mêmes paramètres d'angle et de caméra pour 4:05 modèle Nerf initial non formé à 4:09 prédire le premier rendu puis on 4:11 générer une version image Guidé par notre 4:13 légende et rendu initial avec ajout 4:17 bruit en utilisant imaginez notre texte pré-formé 4:20 au modèle d'image que j'ai expliqué plus en détail 4:22 dans mon image et vidéo si vous êtes curieux 4:24 pour voir comment il fait cela pour notre image et 4:26 le modèle sera guidé par la saisie de texte 4:28 ainsi que le rendu actuel du 4h30 objet avec du bruit ajouté ici nous ajoutons 4:33 bruit parce que c'est ce que l'image et 4:36 module peut prendre comme entrée qu'il doit être 4:38 partie d'une distribution de bruit, il 4:40 comprend que nous utilisons le modèle pour générer 4:43 une image de meilleure qualité ajouter l'image 4:45 utilisé pour le générer et supprimer le bruit 4:48 Nous avons ajouté manuellement pour utiliser ce résultat pour 4:51 guider et améliorer notre modèle Nerf pour le 4:54 prochaine étape nous faisons tout cela pour mieux 4:55 comprendre où dans l'image le Nerf 4:57 modèle doit concentrer son attention sur 4:59 produire de meilleurs résultats pour l'étape suivante 5:01 et nous répétons cela jusqu'à ce que le modèle 3D soit 5:05 assez satisfaisant, vous pouvez ensuite exporter 5:07 ce modèle pour mailler et l'utiliser dans une scène 5:10 de votre choix et devant certains d'entre vous 5:12 demander non vous n'avez pas à recycler le 5:15 modèle de générateur d'image comme on dit 5:17 bien dans le papier il agit juste comme un 5:19 critique gelé qui prédit l'espace de l'image 5:21 edits et voira c'est comme ça que rêve Fusion 5:25 génère un rendu 3D à partir d'entrées de texte 5:28 si vous souhaitez avoir une plus profonde 5h30 compréhension de l'approche ont une 5:32 regarde mes vidéos couvrant les nerfs et 5:34 Imogen je vous invite également à lire leur 5:36 papier pour plus de détails sur ce point spécifique 5:39 méthode merci d'avoir regardé l'intégralité 5:41 vidéo et je vous verrai la semaine prochaine avec 5:44 un autre papier incroyable