El año pasado compartí , un increíble modelo de OpenAI capaz de generar imágenes a partir de una entrada de texto con resultados increíbles. Ahora es el turno de su hermano mayor, DALL·E 2. ¡Y no creerás el progreso en un solo año! DALL·E 2 no solo es mejor para generar imágenes fotorrealistas a partir de texto. ¡Los resultados son cuatro veces la resolución! Como si no fuera ya lo suficientemente impresionante, el modelo reciente aprendió una nueva habilidad; . DALL·E podría generar imágenes a partir de entradas de texto. DALL·E 2 puede hacerlo mejor, pero no se queda ahí. ¡También puede editar esas imágenes y hacer que se vean aún mejor! O simplemente agregue una función que desee, como algunos flamencos en el fondo. ¿Suena interesante? ¡Aprende más en el vídeo!
Referencias
►Lea el artículo completo:
►A. Ramesh et al., 2022, artículo DALL-E 2:
►Publicación del blog de OpenAI:
►Riesgos y limitaciones:
►Página de instagram de OpenAI Dalle:
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):
Transcripción del vídeo
0:00 el año pasado compartí a dolly un increíble 0:02 modelo de openai capaz de generar 0:05 imágenes de un pie tejano con increíble 0:08 resultados ahora es el momento de su gran 0:10 hermano muñequita también y no vas a creer 0:13 el progreso en un solo año dolly 2 es 0:15 no solo mejor en la generación 0:17 imágenes fotorrealistas de textos 0:20 los resultados son cuatro veces la resolución que 0:22 si no fuera ya lo suficientemente impresionante 0:25 el modelo reciente aprendió una nueva habilidad 0:27 imagen en pintura delhi podría generar 0:30 imágenes de entradas de texto que Dolly 2 puede hacer 0:33 es mejor pero no se detiene ahí 0:35 también puede editar esas imágenes y hacerlas 0:38 luzca aún mejor o simplemente agregue una característica 0:41 quieres como un aleteo va en el 0:43 fondo esto es lo que imagen y 0:45 pintar es tomar parte de una imagen 0:47 y reemplazarlo con otra cosa 0:49 siguiendo el estilo y reflexiones en 0:51 la imagen manteniendo el realismo por supuesto 0:53 no solo reemplaza la parte del 0:55 imagen al azar esto será demasiado fácil 0:58 para openai este proceso de pintura es 1:00 también guiado por texto, lo que significa que puede 1:02 dile que añada una hambruna vaya aquí allá o 1:05 aún allí 1:06 antes de sumergirse en el meollo de la cuestión 1:08 este nuevo modelo dahle déjame hablar un poco 1:11 poco sobre este episodio patrocinador 1:13 pesos y sesgos si no lo eres 1:15 familiarizado con el peso y los sesgos que está 1:17 sin duda nuevo aquí y debería 1:19 definitivamente suscríbete al canal 1:21 peso y sesgos le permite mantener 1:22 un seguimiento de todos sus experimentos con sólo 1:25 un puñado de líneas agregadas a su código 1:27 una característica que me encanta es cómo puedes 1:29 crea y comparte rápidamente un aspecto increíble 1:31 informes interactivos como este 1:34 mostrando claramente su equipo o yo futuro 1:36 tus carreras métricas hiperparámetros y 1:38 configuraciones de datos junto con cualquier nota 1:41 usted o su equipo tenían en ese momento es un 1:44 poderosa característica para agregar rápido 1:46 comentarios sobre un experimento o crear 1:48 piezas pulidas de informes de análisis pueden 1:50 también se pueden utilizar como tableros para informes 1:53 un subconjunto más pequeño de métricas que el 1:55 espacio de trabajo principal que incluso puedes crear 1:57 enlaces públicos de solo lectura para compartir con 2:00 cualquier persona puede capturar y compartir fácilmente su 2:02 el trabajo es fundamental si quieres crecer como 2:04 un practicante de ml, por eso yo 2:06 recomendar el uso de herramientas que mejoren su 2:08 funciona como pesos y sesgos solo inténtalo 2:11 con el primer enlace de abajo y empezar 2:13 compartir su trabajo como un profesional 2:16 ahora profundicemos en cómo Dolly 2 no puede 2:19 solo genera imágenes a partir de texto pero es 2:21 también capaz de editarlos de hecho esto 2:24 nueva habilidad de pintura que tiene la red 2:26 aprendido se debe a que es mejor 2:28 comprensión de los conceptos y las imágenes 2:30 ellos mismos a nivel local y global lo que yo 2:33 lo que significa local y globalmente es que 2:35 dahle 2 tiene una comprensión más profunda de 2:37 por qué los píxeles uno al lado del otro tiene 2:40 estos colores como entiende el 2:42 objetos en la escena y sus 2:43 interrelación entre sí de esta manera 2:46 será capaz de entender que esto 2:48 el agua tiene reflejo y el objeto en 2:50 el derecho también debería estar reflejado allí 2:53 también entiende la escena global 2:55 que es lo que está pasando como si 2:58 ibas a describir lo que está pasando 3:00 cuando la persona tomó la foto aquí 3:02 dirías que esta foto no existe 3:05 obviamente o de lo contrario estoy definitivamente abajo a 3:07 prueba que si nos olvidamos que esto es 3:09 imposible dirias que el astronauta 3:11 está montando un caballo en el espacio así que si yo fuera 3:14 para pedirte que dibujes la misma escena pero en 3:17 un planeta en lugar de en el espacio libre que 3:19 ser capaz de imaginar algo así 3:21 ya que entiendes que el caballo y 3:23 astronauta son los objetos de interés para 3:25 mantener en la imagen esto parece obvio 3:28 pero es extremadamente complejo para una máquina 3:30 que solo ve pixeles de colores que es 3:33 por qué dahli 2 es tan impresionante para mí pero 3:35 cómo entiende exactamente el modelo 3:38 el texto lo enviamos y podemos generar un 3:40 imagen fuera de eso, bueno, es bastante similar 3:43 al primer modelo que cubrí en el 3:45 canal comienza usando el clip 3:47 modelo de openai para codificar tanto un texto 3:50 y una imagen en el mismo dominio a 3:52 representación condensada llamada latente 3:55 código, entonces tomará esta codificación y 3:58 usar un generador también llamado decodificador para 4:01 generar una nueva imagen que signifique lo mismo 4:04 cosa como el texto ya que es del 4:06 mismo código latente por lo que dali 2 tiene dos pasos 4:10 clip para codificar la información y el 4:12 nuevo modelo de decodificador para tomar este codificado 4:15 información y generar una imagen a partir de 4:17 si estos dos pasos separados también son 4:20 por qué podemos generar variaciones de la 4:22 imágenes simplemente podemos cambiar al azar el 4:25 información codificada solo un poco haciendo 4:27 se mueve un poquito en el espacio latente 4:30 y seguirá representando lo mismo 4:32 frase teniendo todas las diferentes 4:34 valores creando una imagen diferente 4:36 representando el mismo texto que vemos 4:39 aquí inicialmente toma una entrada de texto y 4:42 lo codifica lo que vemos arriba es el 4:44 primer paso del proceso de formación donde 4:46 también le damos una imagen y la codificamos 4:48 usando clip para que las imágenes y el texto sean 4:51 codificado de manera similar siguiendo el clip 4:53 objetivo entonces de generar un nuevo 4:56 imagen cambiamos a la sección de abajo 4:58 donde usamos la codificación de texto guiada por 5:00 clip para transformarlo en una imagen lista 5:03 la codificación de esta transformación está hecha 5:05 usando una difusión previa a la cual vamos a 5:07 cubierta en breve, ya que es muy similar a 5:09 el modelo de difusión utilizado para el final 5:12 paso finalmente usamos nuestro recién creado 5:14 codificación de imágenes y decodificación en una nueva 5:17 imagen usando el decodificador de difusión a 5:20 decodificador de difusión o modal es una especie de 5:23 modelo que comienza con ruido aleatorio y 5:25 aprende cómo cambiar iterativamente esto 5:28 ruido para volver a una imagen que aprende 5:30 que al hacer lo contrario durante 5:32 entrenando le daremos de comer imagenes y 5:34 aplicar ruido gaussiano aleatorio en la imagen 5:37 iterativamente hasta que no podamos ver nada 5:40 aparte del ruido, simplemente invertimos 5:43 el modelo para generar imágenes a partir del ruido 5:45 si desea más detalles sobre esto 5:47 tipo de red que son realmente geniales 5:50 te invito a ver este video que hice 5:51 sobre ellos y listo así es como dali 2 5:55 genera imágenes de tan alta calidad 5:58 siguiente texto es súper impresionante y 6:00 nos dice que el modelo si entiende 6:02 el texto, pero ¿entiende profundamente 6:05 lo que creó 6:06 Bueno, seguro que parece que es el 6:08 capacidad de pintar imágenes que 6:10 nos hace creer que si entiende 6:12 las fotos bastante bien, pero ¿por qué es eso? 6:15 Entonces, ¿cómo puede vincular una entrada de texto a un 6:18 imagen y entender la imagen lo suficiente como para 6:20 reemplace solo algunas partes sin 6:23 afectando el realismo esto es todo 6:25 debido al clip, ya que vincula una entrada de texto 6:28 a una imagen si codificamos de nuevo nuestra nueva 6:30 imagen generada y usar un texto diferente 6:33 entrada para guiar a otra generación podemos 6:35 generar la segunda versión de la imagen 6:38 que reemplazará solo la región deseada 6:40 en nuestra primera generación y acabarás 6:43 arriba con esta foto desafortunadamente el 6:46 el código no está disponible públicamente y no es 6:48 en su api sin embargo, la razón de eso como 6:51 per openai es estudiar los riesgos y 6:53 limitaciones de un modelo tan potente 6:56 en realidad discuten estos posibles 6:58 riesgos y la razón de esta privacidad en 7:00 su papel y en un gran repositorio i 7:02 vinculado en la descripción a continuación si usted 7:04 están interesados también abrieron un 7:06 cuenta de instagram para compartir más resultados 7:08 si quieres ver que también es 7:10 vinculado a continuación, me encantó Dally y este 7:13 es aún más genial 7:15 por supuesto, esto fue solo una descripción general de 7:17 cómo funciona dahli2 y lo invito encarecidamente 7:19 leyendo su gran artículo vinculado a continuación 7:21 para más detalles sobre su implementación 7:23 del modelo espero que les haya gustado 7:26 video tanto como disfruté haciéndolo y 7:28 te veré la próxima semana con otro increíble papel gracias por mirar