paint-brush
Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIA por@whatsai
3,193 lecturas
3,193 lecturas

Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIA

por Louis Bouchard5m2022/11/05
Read on Terminal Reader

Demasiado Largo; Para Leer

eDiffi, el modelo más reciente de NVIDIA, genera imágenes de mejor aspecto y más precisas que todos los enfoques anteriores como DALLE 2 o Stable Diffusion. eDiffi comprende mejor el texto que envía y es más personalizable, ya que agrega una función que vimos en un artículo anterior de NVIDIA: la herramienta Painter. Conoce más en el vídeo...
featured image - Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIA
Louis Bouchard HackerNoon profile picture
eDiffi, el modelo más reciente de NVIDIA, genera imágenes más precisas y de mejor aspecto que todos los enfoques anteriores como DALLE 2 o Stable Diffusion. eDiffi comprende mejor el texto que envía y es más personalizable, ya que agrega una función que vimos en un artículo anterior de NVIDIA: la herramienta Painter. Conoce más en el vídeo...

Referencias

►Lea el artículo completo:
► Balaji, Y. et al., 2022, eDiffi: Modelos de difusión de texto a imagen con un conjunto de eliminadores de ruido expertos,
►Página del proyecto:
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):

Transcripción del vídeo

0:06 el nuevo enfoque de vanguardia para 0:08 síntesis de imagen que genera mejor 0:10 buscando imágenes más precisas que 0:13 todos los enfoques anteriores como Delhi 2 o 0:15 difusión estable ya sea si es mejor 0:17 entiende el texto que envía y es 0:19 más personalizable agregando una nueva característica 0:21 vimos en un artículo anterior de Nvidia 0:23 la herramienta de pintor como ven se puede 0:26 pintar con palabras en resumen esto significa que 0:29 puede ingresar algunos temas y pintar en 0:32 la imagen lo que debe aparecer aquí y 0:34 ahí permitiéndote crear mucho más 0:36 imágenes personalizadas en comparación con un aleatorio 0:39 generación siguiendo un aviso esto es 0:41 el siguiente nivel que te permite ser bonita 0:43 obtener la imagen exacta que tiene en 0:45 mente simplemente dibujando un rápido horrible 0:47 esbozar algo que incluso yo pueda hacer como yo 0:50 mencionó que los resultados no son solo de Sota 0:52 y mejor aspecto que la difusión estable 0:55 pero también son mucho más controlables 0:57 por supuesto que es un caso de uso diferente como 0:59 necesita un poco más de trabajo y más claro 1:02 ID en mente para crear un borrador de este tipo, pero 1:04 definitivamente es muy emocionante y 1:06 interesante también es por eso que quería 1:08 cúbrelo en mi canal ya que no es 1:11 simplemente un modelo mejor, sino también un 1:13 enfoque diferente con mucho más 1:15 control sobre la salida que la herramienta no tiene 1:17 todavía disponible lamentablemente pero estoy seguro 1:19 espero que sea pronto por cierto 1:22 definitivamente debería suscribirse a la 1:23 canal y sígueme en Twitter en what 1:25 saluda si te gusta este tipo de video 1:27 y me gustaría tener acceso a fácilmente 1:30 noticias digeribles sobre esto fuertemente 1:32 campo complicado otra victoria que ellos 1:34 le permite tener más control en este 1:37 nuevo modelo es mediante el uso de la misma función 1:39 vimos pero de manera diferente en efecto el modelo 1:42 genera imágenes Guiado por una oración 1:44 pero también puede ser influenciado usando un 1:47 bosquejo rápido por lo que básicamente toma un 1:49 imagen y un texto como entradas esto significa 1:52 puedes hacer otras cosas como entiende 1:54 las imágenes aquí aprovechan esto 1:56 capacidad mediante el desarrollo de un estilo 1:58 enfoque de transferencia donde puede 2:00 influir en el estilo de la imagen 2:02 proceso de generación dando una imagen con 2:04 un estilo particular bien junto con su 2:06 entrada de texto esto es genial y solo 2:09 mira los resultados de los que hablan 2:11 ellos mismos es increíble vencer a ambos 2:14 Modelos e imagen de transferencia de estilo Sota 2:16 modelos de síntesis con un solo enfoque 2:18 ahora la pregunta es cómo podría Nvidia 2:22 desarrollar un modelo que cree mejores 2:23 mirar imágenes permite un mayor control sobre 2:26 tanto el estilo como la estructura de la imagen 2:29 así como una mejor comprensión y 2:31 representando lo que realmente quieres en 2:34 tu texto pues cambian lo tipico 2:36 arquitectura de difusión de dos maneras primero 2:39 codifican el texto usando dos diferentes 2:41 enfoques que ya cubrí en el 2:43 canal al que nos referimos como clip y T5 2:46 codificadores esto significa que utilizarán 2:48 modelos pre-entrenados para tomar texto y 2:50 crear varias incrustaciones centrándose en 2:52 diferentes características a medida que son entrenados 2:55 y se comportaron de manera diferente y los significados son 2:57 sólo representaciones que maximizan lo que el 3:00 oración en realidad significa para el 3:01 algoritmo o la máquina para entender 3:04 con respecto a la imagen de entrada, simplemente 3:06 use las incrustaciones de clips también 3:08 básicamente codificando la imagen para que la 3:11 modelo puede entenderlo que usted puede 3:13 aprende más sobre en mis otros videos 3:14 cubriendo los modelos generativos tal como son 3:16 casi todo construido en clip esto es 3:19 lo que les permite tener más control 3:21 sobre la salida, así como procesada 3:23 texto e imágenes en lugar de solo texto 3:25 la segunda modificación es usar un 3:28 Cascada de modelos de difusión en lugar de 3:31 reutilizando lo mismo iterativamente como nosotros 3:33 generalmente lo hacen con modelos basados en difusión 3:35 aquí los modelos de uso entrenados para la 3:38 parte específica del proceso generativo 3:39 lo que significa que cada modelo no tiene que 3:42 ser tan general como la difusión regular 3:44 eliminador de ruido ya que cada modelo tiene que centrarse 3:46 en una parte específica del proceso puede 3:49 ser mucho mejor en eso usan esto 3:51 porque observaron que el 3:52 los modelos de eliminación de ruido parecían usar el texto 3:55 incrustaciones mucho más para orientar su 3:57 generación hacia el comienzo de la 3:59 proceso y luego usarlo cada vez menos para 4:02 Centrarse en la calidad de salida y la fidelidad. 4:05 esto naturalmente trae la hipótesis 4:07 que reutilizar el mismo modelo de eliminación de ruido 4:09 a lo largo de todo el proceso podría no 4:11 ser la mejor identificación ya que automáticamente 4:13 se enfoca en diferentes tareas y sabemos 4:15 que un generalista está lejos del experto 4:18 nivel en todas las tareas ¿por qué no usar algunos 4:20 expertos en lugar de un generalista para obtener 4:23 resultados mucho mejores así que esto es lo que ellos 4:25 hizo y por qué los llaman denoising 4:28 expertos y la razón principal de esto 4:30 mejora el rendimiento en calidad y 4:32 fidelidad el resto de los 4:34 la arquitectura es bastante similar a otras 4:36 enfoques de escalar los resultados finales 4:38 con otros modelos para obtener un alto 4:40 definición imagen final la imagen y 4:43 los campos de síntesis de video se están poniendo 4:45 loco hoy en día y estamos viendo 4:47 resultados impresionantes que salen cada semana 4:49 Estoy súper emocionada por los próximos lanzamientos. 4:51 y me encanta ver diferentes enfoques 4:53 con formas innovadoras de abordar 4:55 el problema y también ir por diferentes 4:57 casos de uso como dijo una vez una gran persona 5:01 que tiempo de estar vivo espero que les guste 5:04 esta rápida descripción general del enfoque 5:06 nivel un poco más alto de lo que suelo 5:08 haz lo que sea necesario para la mayoría de las partes que ya 5:10 cubierto en numerosos videos y cambiado 5:12 que actúen diferente te invito a 5:15 mira mi video de difusión estable para aprender 5:17 un poco más sobre el enfoque de difusión 5:19 mismo y leer el documento de nvidia para 5:21 obtener más información sobre este enfoque específico 5:23 y su implementación te veré 5:26 la próxima semana con otro artículo increíble 5:32 extranjero 5:36 [Música]
바카라사이트 바카라사이트 온라인바카라