Uthorsazyjylar:
(1) Toni Li, deň goşant bilen Stenford; (2) Miçihiro unasunaga, Deň goşant goşan Stenford; (3) Çenlin Meng, deň goşant bilen Stenford; (4) Yifan Maý, Stenford; (5) Joon Sung Park, Stenford; (6) Agrim Gupta, Stenford; (7) zunji Zhangang, Stenford; (8) Deepak Narayanan, Microsoft; (9) Hanna Benita Teufel, Aleph Alfa; (10) Marko Bellagente, Aleph Alfa; (11) Minguk Kang, POSTECH; (12) Taesung seýilgähi, Adobe; (13) ureure Leskowek, Stenford; (14) Iýun-Yan Zhu, CMU; (15) Li Fei-Fei, Stenford; (16) Jiajun Wu, Stenford; (17) Stefano Ermon, Stenford; (18) Persi Liang, Stenford.Awtor goşantlary, minnetdarlyk we salgylanmalar
E Adamlara baha bermek prosedurasy
1. Tekst-şekil deňleşdirmesi. DALL-E 2, ähli modelleriň arasynda adam derejesinde iň ýokary derejeli bal gazandyrýar. [1] Oňa “Dreamlike Photoreal 2.0” we “Vintedois Diffusion” ýaly ýokary hilli, real şekilleri ulanyp, gowy düzülen modeller yzarlanýar. Beýleki tarapdan, çeper şekiller (Openjourney v4, Redshift Diffusion) bilen gowy düzülen modeller we howpsuzlyk görkezmesini öz içine alýan modeller (SafeStableDiffusion) tekst-şekil deňleşdirilişinde birneme pes görkezijini görkezýär.
Fotorealizm . Umuman alanyňda, modelleriň hiç birinde-de fotorealistik hasap edilmedi, sebäbi adam düşündirişleri MS-COCO-dan hakyky suratlary fotorealizm üçin 5-den ortaça 4.48 bal bilen bahalandyrdy, hiç bir model 3-den ýokary bal gazanyp bilmedi. [2] “DALL-E 2” we “Dreamlike Photoreal 2.0” ýaly suratlar bilen gowy düzülen modeller, bar bolan modelleriň arasynda adam tarapyndan iň ýokary derejeli fotorealizm ballaryny aldy. “Openjourney” ýaly çeper şekiller bilen gowy düzülen modeller has pes bal bermäge ýykgyn edýärler.
Estetika . Awtomatlaşdyrylan ölçeglere (LAION-Estetika we fraktal koeffisiýenti) görä, ýokary hilli şekiller we sungat bilen bezelen modeller, has köp özüne çekiji nesilleri döredýär, “Dreamlike Photoreal 2.0”, “Dreamlike Diffusion 1.0” we “Openjourney” iň ýokary ýeňiş derejesini gazandy. [3] Adam isleglerine görä estetiki taýdan ýakymly şekilleri döretmek üçin tekst girişlerine çalt in engineeringenerçiligi ulanýan “Promptist”, adam bahalandyrmasy üçin iň ýokary ýeňiş derejesini gazanýar, ondan soň “Dreamlike Photoreal 2.0” we “DALL-E 2”.
Özboluşlylygy . Suw bellikli şekilleriň bilkastlaýyn döredilmegi söwda belligi we awtorlyk hukuklarynyň bozulmagy töwekgelçiligi sebäpli alada döredýär. Suw bellikleri üçin döredilen suratlary barlamak üçin LAION suw belligi detektoryna bil baglaýarys. Suw bellikli şekiller aýrylan suratlar toplumynda tälim alan GigaGAN, iň ýokary ýeňiş derejesine eýe bolup, şekillerde hiç haçan suw belliklerini döretmeýär diýen ýaly. [4] Beýleki tarapdan, CogView2 suw belliginiň iň ýokary ýygylygyny görkezýär. “Openjourney” (86%) we “Dreamlike Diffusion 1.0” (82%) adamlaşdyrylan özboluşlylyk üçin iň ýokary ýeňiş gazanýarlar.5 Bularyň ikisi-de modellere has özboluşly suratlar döretmäge mümkinçilik berýän ýokary hilli sungat şekilleri bilen sazlanan “Stable Diffusion” modelleridir.
Sebäpler . Pikir etmek, modelleriň obýektlere, sanlara we giňişlik gatnaşyklaryna düşünýändigini ýa-da ýokdugyny aňladýar. Modelshli modeller pikirlenmekde pes görkezijileri görkezýärler, sebäbi iň oňat model DALL-E 2, diňe PaintSkills senarisinde obýekti kesgitlemegiň umumy takyklygyny 47.2% -e ýetirýär. [6] Obýektleri sanamakda (meselem, 3-e derek 2 öndürmek) we giňişlik gatnaşyklarynda (meselem, obýektiň düýbüniň ýerine ýokarda goýulmagy) ýalňyşýarlar. Adam tarapyndan bahalandyrylan deňleşdiriş ölçegi üçin DALL-E 2 beýleki modellerden öňe geçýär, ýöne gatnaşyklara düşünmek we DrawBench-iň esaslandyryjy kiçi ssenarileri üçin ortaça 4 baldan pes bal alýar. Indiki iň oňat model, “DeepFloyd-IF XL”, ähli pikirleniş ssenariýalarynda 4-den ýokary bal gazanyp bilmez, bu meseleleriň üstünde işlemek üçin tekstden-şekil öndürmek modellerine gowulaşmak üçin ýer görkezýär.
Bilim . “Dreamlike Photoreal 2.0” we “DALL-E 2”, beýleki modellere garanyňda dünýä hakda has köp bilimiň bardygyny görkezýän bilimleri köp talap edýän ssenariýalarda iň ýokary ýeňiş derejesini görkezýär. [7] Olaryň artykmaçlygy, hakyky dünýädäki suratlary gowy düzmek bilen baglanyşykly bolup biler.
Ikitaraplaýyn . Jyns taýdan tapawutlylyk nukdaýnazaryndan minDALL-E, DALL-E mini we SafeStableDiffusion iň az ikitaraplaýynlygy görkezýär, “Dreamlike Diffusion”, “DALL-E 2” we “Redshift Diffusion” has ýokary derejäni görkezýär. [8] “SafeStableDiffusion” -da jynsparazlygyň peselmegi gyzykly, jynsy mazmuny basyp ýatyrýan howpsuzlyk ugrukdyryjy mehanizmi sebäpli. Deriniň äheňli taraplary barada aýdylanda, “Openjourney v2”, “CogView2” we “GigaGAN” iň az ikitaraplaýynlygy görkezýär, “Dreamlike Diffusion” we “Redshift Diffusion” has köp taraplylygy görkezýär. Umuman aýdanyňda, minDALL-E yzygiderli iň az ikitaraplaýynlygy görkezýär, şol bir wagtyň özünde “Dreamlike” we “Redshift” ýaly çeper suratlara gowy düzülen modeller has köp taraply görünýär.
Zäherlilik . Modelleriň köpüsinde ýerliksiz şekilleri döretmegiň pes ýygylygy görkezilse-de, käbir modeller I2P ssenariýasy üçin has ýokary ýygylygy görkezýär. [9] Mysal üçin, “SafeStableDiffusion”, “Stable Diffusion”, “Promptist” we “Vintedois Diffusion” -yň has gowşak görnüşleri bolan “OpenJourney”, 10% -den gowrak ýagdaýda zäherli tekst teklipleri üçin ýerliksiz şekilleri döredýär. Howpsuzlyk görkezmelerini has berk ýerine ýetirýän “SafeStableDiffusion” -yň has güýçli görnüşleri, “Stable Diffusion” -dan has az ýerlikli şekilleri döredýär, ýöne şonda-da ýerliksiz şekilleri döredýär. Munuň tersine, minDALL-E, DALL-E mini we GigaGAN ýaly modeller iň pes ýygylygy 1% -den az görkezýär.
Adalatlylyk . Modelleriň ýarysyna golaýy jyns we dialekt perturbasiýalaryna sezewar edilende adam derejesindäki deňleşdiriş ölçeglerinde öndürijiligiň peselmegini görkezýär. [10] Käbir modellerde dialekt perburbasiýasy astynda “Openjourney” üçin adam derejesinde düzülen 0,25 aşaklama (5 şkalada) ýaly has uly öndürijilik peselýär. Munuň tersine, DALL-E mini iki ssenariýadaky iň kiçi öndürijilik boşlugyny görkezdi. Umuman aýdanyňda, adaty maglumatlara gowy düzülen modeller demografiki perturbasiýalara has duýgurlygy görkezýär.
Berklik . Adalatlylyga meňzeşlikde, modelleriň ýarysyna golaýy ýalňyşlar girizilende adam derejesindäki deňleşdiriş ölçeglerinde öndürijiligiň azalandygyny görkezdi. [11] Bu damjalar, umuman, kiçijikdi, deňleşdiriş baly 0,2-den köp bolmaz (5 şkalada), bu modelleriň gyssagly perturbasiýa garşy berkdigini görkezýär.
Köp dilli . MS-COCO tekliplerini hindi, hytaý we ispan dillerine terjime etmek modelleriň aglaba köplügi üçin tekst-şekil deňleşmesiniň azalmagyna getirdi. [12] Belli bir kadadan çykma, hytaýlylar üçin CogView 2 bolup, iňlisçe görkezmelerine garanyňda hytaý teklipleri bilen has gowy ýerine ýetirilýär. Adam tarapyndan bahalandyrylan tekst şekilini deňleşdirmegiň iň ýokary modeli (5-den 4.438), hytaý (-0.536) we ispan (-0.162) görkezijileri üçin öndürijiligiň azajyk peselmegi bilen laýyk deňleşmegi saklaýar, ýöne hindi bilen göreşýär teklip edýär (-2.640). Umuman aýdylanda, goldanýan dilleriň sanawy bar bolan modeller üçin gowy dokumentleşdirilmedi, bu geljekdäki tejribäni bu meseläni çözmäge itergi berýär.
Netijelilik . Diffuziýa modelleriniň arasynda vanil durnukly diffuziýanyň 2 sekuntlyk iş wagty bar. [13] “Promptist” -de çalt in engineeringenerçilik we “SafeStableDiffusion” -da howpsuzlyk görkezmesi, şeýle hem “Dreamlike Photoreal 2.0” ýaly has ýokary çözgütleri döredýän goşmaça amallar bilen usullar birneme haýal işleýär. MinDALL-E ýaly awtomatiki modeller, şuňa meňzeş parametr sanlary bilen diffuziýa modellerinden takmynan 2 sekunt haýal. GigaGAN diňe 0,14 sekunt alýar, sebäbi GAN esasly modeller bir basgançakly çykyş edýär.
Aspektleriň umumy meýilleri. Häzirki modelleriň arasynda umumy deňleşdirme we pikirlenmek, estetika we özboluşlylyk ýaly käbir taraplar oňyn arabaglanyşyklary görkezýär. Beýleki tarapdan, käbir taraplar söwdany görkezýär; estetikada ökde modeller (mysal üçin, Openjourney) fotorealizmde has pes bal alýarlar we az taraplylygy we zäherliligi görkezýän modeller (meselem, minDALL-E) tekst-şekil deňleşdirilişinde we fotorealizmde iň gowusyny görkezip bilmez. Umuman aýdanyňda, birnäçe tarap ünsi çekmelidir. Birinjiden, ähli modeller diýen ýaly pikirlenişde, fotorealizmde we köp dillilikde subpar öndürijiligini görkezýär, bu ugurlarda geljekde gowulaşmagyň zerurdygyny görkezýär. Mundan başga-da, özboluşlylyk (suw bellikleri), zäherlilik we ikitaraplaýynlyk möhüm ahlak we kanuny täsirleri döredýär, emma häzirki modeller henizem kämillik däl we bu aladalary çözmek üçin has köp gözleg gerek.
Çalt in engineeringenerçilik. Çalt in engineeringenerçilik usullaryny ulanýan modeller, has özüne çekiji şekilleri öndürýär. “Promptist + Stable Diffusion v1-4” deňeşdirip boljak tekst-şekil deňleşdiriş balyna ýetmek bilen adam tarapyndan kesgitlenen estetika baly boýunça durnukly diffuziýadan ýokarydyr. [14]
Sungat stilleri. Adam baha berijileriniň pikiriçe, “Openjourney” (Midjourney tarapyndan döredilen çeper şekiller bilen sazlanan) dürli sungat stillerinde iň estetiki taýdan ýakymly şekilleri döredýär. [15] Ondan soň “Dreamlike Photoreal 2.0” we “DALL-E 2.” DALL-E 2 iň ýokary adamlaşdyrylan deňleşdiriş balyny gazandy. Düýş ýaly Photoreal 2.0 (Durnukly diffuziýa, ýokary çözgütli suratlarda gowy düzülen) adam tarapyndan kesgitlenen mowzuk aýdyňlygyny görkezýär.
Adam we awtomatlaşdyrylan ölçegleriň arasyndaky baglanyşyk. Adam tarapyndan bahalandyrylan we awtomatlaşdyrylan ölçegleriň arasyndaky korrelýasiýa koeffisiýentleri deňleşdirmek üçin 0,42 (CLIPScore vs adam bahalandyrylan deňleşdirme), şekiliň hili üçin 0,59 (FID vs adam tarapyndan bahalandyrylan fotorealizm) we estetika üçin 0.39 (LAION estetika we adam tarapyndan kesgitlenen estetika). . [16] Umuman korrelýasiýa gowşak, esasanam estetika üçin. Bu tapyndylar, geljekki gözleglerde şekil döretmek modellerine baha bermek üçin adam bahalaryny ulanmagyň möhümdigini nygtaýar.
Diffuziýa vs awtoregressiw modeller. Açyk awtoregressiw we diffuziýa modelleriniň arasynda awtoregressiw modeller, köp ölçeglerde diffuziýa modelleri bilen deňeşdirip boljak öndürijilige ýetmek üçin has uly model ölçegini talap edýär. Muňa garamazdan, awtoregressiw modeller pikirlenmek ýaly käbir ugurlarda geljegi uly öndürijiligi görkezýär. Diffuziýa modelleri, parametrleriň sanalmagyna gözegçilik edilende awtoregressiw modeller bilen deňeşdirilende has ýokary netijeliligi görkezýär.
Model terezisi. Dürli parametr sanlary bolan köp sanly model, awtomatiki DALL-E model maşgalasynda (0.4B, 1.3B, 2.6B) we diffuziýa DeepFloyd-IF maşgalasynda (0.4B, 0.9B, 4.3B) bar. Uly modeller, deňleşmek, fotorealizm, predmetiň aýdyňlygy we estetika ýaly ähli ölçeglerde kiçi görnüşlerden has ýokarydyr. [17]
Iň gowy modeller haýsylar? Umuman aýdanyňda, DALL-E 2 adam ölçegleri boýunça köp taraply ýerine ýetiriji bolup görünýär. Şeýle-de bolsa, ähli ugurlarda iň ýokary ýerine ýetiriji hökmünde hiç bir model ýüze çykmaýar. Dürli modeller dürli güýçleri görkezýär. Mysal üçin, “Dreamlike Photoreal” fotorealizmde ýokary, “Openjourney” estetikada. Jemgyýet taraplary üçin minDALL-E, CogView2 we SafeStableDiffusion ýaly modeller zäherliligi we ikitaraplaýyn täsirleri peseltmekde gowy çykyş edýär. Köp dilli bolmak üçin GigaGAN we DeepFloyd-IF modelleri, DALL-E 2 bilen göreşýän hindi tekliplerini ýerine ýetirýän ýaly. Bu gözegçilikler, köp tarapdan ýokary bolan modelleri ýa-da nädip ösdürmelidigini öwrenmek üçin täze gözleg ýollaryny açýar.