201 קריאות

פוטוריאליזם, הטיה ומעבר: תוצאות מהערכת 26 מודלים של טקסט לתמונה

על ידי Auto Encoder: How to Ignore the Signal Noise8m2024/10/12

יותר מדי זמן; לקרוא

מחקר זה מעריך 26 מודלים של טקסט לתמונה על פני 12 היבטים מרכזיים תוך שימוש ב-62 תרחישים ו-25 מדדים. DALL-E 2 מוביל ביישור טקסט-תמונה, בעוד Dreamlike Photoreal מצטיין בפוטוריאליזם. למרות החוזקות שלהם, רוב הדוגמניות נופלות בהיגיון, בפוטוריאליזם וברב-לשוניות, עם הטיה ורעילות שנותרו דאגות משמעותיות. דגמים כמו minDALL-E ו-SafeStableDiffusion מפחיתים את ההטיות היטב, בעוד Dreamlike Diffusion ו-Openjourney זוהרים במקוריות ובאסתטיקה. התוצאות המלאות, כולל שיעורי זכייה מפורטים, מסוכמים בטבלה 5.

featured image - פוטוריאליזם, הטיה ומעבר: תוצאות מהערכת 26 מודלים של טקסט לתמונה

מחברים:

(1) טוני לי, סטנפורד עם תרומה שווה; (2) Michihiro Yasunaga, Stanford עם תרומה שווה; (3) צ'נלין מנג, סטנפורד עם תרומה שווה; (4) יפאן מאי, סטנפורד; (5) פארק ג'ון סונג, סטנפורד; (6) אגרים גופטה, סטנפורד; (7) יונז'י ג'אנג, סטנפורד; (8) Deepak Narayanan, Microsoft; (9) חנה בניטה תאופל, אלף אלפא; (10) מרקו בלאגנטה, אלף אלפא; (11) Minguk Kang, POSTECH; (12) Taesung Park, Adobe; (13) ז'ורה לסקובץ, סטנפורד; (14) Jun-Yan Zhu, CMU; (15) לי פיי-פיי, סטנפורד; (16) ג'יאג'ון וו, סטנפורד; (17) סטפנו ארמון, סטנפורד; (18) פרסי ליאנג, סטנפורד.

טבלת קישורים

תרומות מחבר, תודות והפניות

7 ניסויים ותוצאות

הערכנו 26 מודלים של טקסט לתמונה (§6) על פני 12 ההיבטים (§3), תוך שימוש ב-62 תרחישים (§4) ו-25 מדדים (§5). כל התוצאות זמינות בכתובת //crfm.stanford.edu/heim/v1.1.0. אנו מספקים גם את סיכום התוצאות בטבלה 5. להלן, אנו מתארים את הממצאים העיקריים. שיעור הזכייה של מודל הוא ההסתברות שהמודל מתעלה על מודל אחר שנבחר באופן אחיד באקראי עבור מדד נתון בהשוואה ראש בראש.

1. יישור טקסט-תמונה. DALL-E 2 משיג את ציון היישור הגבוה ביותר בדירוג אנושי מבין כל הדגמים.[1] עוקב אחריו מקרוב על ידי דגמים המכוונים עדין באמצעות תמונות איכותיות וריאליסטיות, כגון Dreamlike Photoreal 2.0 ו- Vintedois Diffusion. מצד שני, דגמים המכוונים היטב עם תמונות אמנות (Openjourney v4, Redshift Diffusion) ודגמים המשלבים הנחיית בטיחות (SafeStableDiffusion) מציגים ביצועים מעט נמוכים יותר ביישור טקסט-תמונה.

פוטוריאליזם . באופן כללי, אף אחת מהדגימות של הדוגמניות לא נחשבה לפוטוריאליסטית, מכיוון שמעריכים אנושיים דירגו תמונות אמיתיות מ-MS-COCO עם ציון ממוצע של 4.48 מתוך 5 עבור פוטוריאליזם, בעוד שאף דגם לא השיג ציון גבוה מ-3.[2] DALL-E 2 ודגמים שהותאמו היטב עם תצלומים, כגון Dreamlike Photoreal 2.0, השיגו את ציוני הפוטוריאליזם הגבוהים ביותר בדירוג אנושי מבין הדגמים הזמינים. בעוד דוגמניות מכווננות עם תמונות אמנות, כגון Openjourney, נטו להניב ציונים נמוכים יותר.
אסתטיקה . לפי מדדים אוטומטיים (LAION-Esthetics ומקדם פרקטל), כוונון עדין של מודלים עם תמונות ואמנות באיכות גבוהה מביא לדורות מושכים יותר מבחינה ויזואלית, כאשר Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0 ו-Openjourney משיגים את שיעורי הזכייה הגבוהים ביותר.[3] Promptist, המיישמת הנדסה מהירה לקלט טקסט כדי ליצור תמונות אסתטיות בהתאם להעדפות אנושיות, משיגה את שיעור הזכייה הגבוה ביותר להערכה אנושית, ואחריה Dreamlike Photoreal 2.0 ו-DALL-E 2.
מקוריות . היצירה הלא מכוונת של תמונות בסימן מים מהווה דאגה בשל הסיכון להפרת סימנים מסחריים וזכויות יוצרים. אנו מסתמכים על גלאי סימני המים LAION כדי לבדוק אם יש סימני מים בתמונות שנוצרו. ל-GigaGAN, שאומן על סט של תמונות שבהן הוסרו תמונות עם סימן מים, יש ל-GigaGAN את שיעור הזכייה הגבוה ביותר, ולמעשה אף פעם לא מייצר סימני מים בתמונות.[4] מצד שני, CogView2 מציג את התדירות הגבוהה ביותר של יצירת סימני מים. Openjourney (86%) ו-Dreamlike Diffusion 1.0 (82%) משיגות את שיעורי הזכייה הגבוהים ביותר עבור מקוריות שהוגדרה על ידי אנוש.5 שניהם דגמי Stable Diffusion המכוונים עדין על תמונות אמנות באיכות גבוהה, מה שמאפשר לדגמים ליצור תמונות מקוריות יותר.
נימוק . נימוק מתייחס לשאלה האם המודלים מבינים אובייקטים, ספירות ויחסים מרחביים. כל הדגמים מציגים ביצועים גרועים בהיגיון, שכן הדגם הטוב ביותר, DALL-E 2, משיג רק דיוק כולל של זיהוי אובייקטים של 47.2% בתרחיש PaintSkills.[6] לעתים קרובות הם עושים טעויות בספירת האובייקטים (למשל, יוצרים 2 במקום 3) וביחסים מרחביים (למשל, מיקום האובייקט מעל במקום למטה). עבור מדד היישור בדירוג אנושי, DALL-E 2 מתעלה על דגמים אחרים אך עדיין מקבל ציון ממוצע של פחות מ-4 עבור הבנה יחסית ותת-תרחישי ההיגיון של DrawBench. הדגם הבא הטוב ביותר, DeepFloyd-IF XL, אינו משיג ציון גבוה מ-4 בכל תרחישי ההיגיון, מה שמצביע על מקום לשיפור עבור מודלים של יצירת טקסט לתמונה עבור משימות חשיבה.
ידע . Dreamlike Photoreal 2.0 ו-DALL-E 2 מציגים את שיעורי הזכייה הגבוהים ביותר בתרחישים עתירי ידע, דבר המצביע על כך שיש להם יותר ידע על העולם מאשר דגמים אחרים.[7] העליונות שלהם עשויה להיות מיוחסת לכוונון עדין על תצלומי ישויות בעולם האמיתי.
הטיה . במונחים של הטיה מגדרית, minDALL-E, DALL-E mini ו-SafeStableDiffusion מפגינים הכי פחות הטיה, בעוד Dreamlike Diffusion, DALL-E 2 ו-Redshift Diffusion מפגינים רמות גבוהות יותר של הטיה.[8] הפחתת ההטיה המגדרית ב-SafeStableDiffusion מסקרנת, אולי בשל מנגנון הנחיית הבטיחות שלו שמדכא תוכן מיני. לגבי הטיית גוון העור, Openjourney v2, CogView2 ו-GigaGAN מציגים את ההטיה הכי פחות, בעוד Dreamlike Diffusion ו- Redshift Diffusion מפגינים יותר הטיה. בסך הכל, minDALL-E מציג באופן עקבי הכי פחות הטיה, בעוד שדגמים המכוונים עדין על תמונות אמנות כמו Dreamlike ו-Redshift נוטים להפגין יותר הטיה.
רעילות . בעוד שרוב הדגמים מציגים תדירות נמוכה של יצירת תמונות לא מתאימות, דגמים מסוימים מציגים תדירות גבוהה יותר עבור תרחיש I2P.[9] לדוגמה, OpenJourney, הגרסאות החלשות יותר של SafeStableDiffusion, Stable Diffusion, Promptist ו- Vintedois Diffusion, מייצרות תמונות לא מתאימות להודעות טקסט לא רעילות ביותר מ-10% מהמקרים. הגרסאות החזקות יותר של SafeStableDiffusion, אשר אוכפות בצורה חזקה יותר את הנחיית הבטיחות, מייצרות פחות תמונות בלתי הולמות מאשר Stable Diffusion, אך עדיין מייצרות תמונות לא הולמות. לעומת זאת, דגמים כמו minDALL-E, DALL-E mini ו-GigaGAN מציגים את התדר הנמוך ביותר, פחות מ-1%.

הגינות . כמחצית מהדגמים מציגים ירידה בביצועים במדדי יישור בדירוג אנושי כאשר הם נתונים להפרעות מגדר וניב.[10] דגמים מסוימים סובלים מירידה גדולה יותר בביצועים, כגון ירידה של 0.25 (בסולם של 5) ביישור בדירוג אנושי עבור Openjourney תחת הפרעות דיאלקט. לעומת זאת, DALL-E mini הראה את פער הביצועים הקטן ביותר בשני התרחישים. בסך הכל, מודלים שהותאמו לנתונים מותאמים אישית הציגו רגישות רבה יותר להפרעות דמוגרפיות.
איתנות . בדומה להגינות, כמחצית מהמודלים הראו ירידה בביצועים במדדי יישור בדירוג אנושי כאשר הוצגו שגיאות הקלדה.[11] נפילות אלו היו בדרך כלל מינוריות, כאשר ציון היישור ירד ללא יותר מ-0.2 (בסולם של 5), מה שמעיד על כך שהמודלים הללו עמידים בפני הפרעות מיידיות.
רב לשוניות . תרגום ההנחיות של MS-COCO להינדית, סינית וספרדית הביא לירידה ביישור הטקסט-תמונה עבור הרוב המכריע של הדגמים.[12] יוצא דופן בולט הוא CogView 2 לסינית, שידוע כבעל ביצועים טובים יותר עם הנחיות סיניות מאשר עם הנחיות באנגלית. DALL-E 2, הדגם העליון ליישור טקסט-תמונה בדירוג אנושי (4.438 מתוך 5), שומר על יישור סביר עם ירידה קלה בלבד בביצועים עבור הנחיות סיניות (-0.536) וספרדיות (-0.162) אך מתקשה עם הינדי הודעות (-2.640). באופן כללי, רשימת השפות הנתמכות אינה מתועדת היטב עבור מודלים קיימים, מה שמניע שיטות עבודה עתידיות לטפל בזה.
יעילות . בין דגמי הדיפוזיה, ל-Stable Diffusion של וניל יש זמן ריצה מדושן של 2 שניות.[13] שיטות עם פעולות נוספות, כגון הנדסה מהירה ב-Promptist והנחיית בטיחות ב-SafeStableDiffusion, כמו גם מודלים המייצרים רזולוציות גבוהות יותר כמו Dreamlike Photoreal 2.0, מציגות ביצועים מעט איטיים יותר. מודלים אוטורגרסיביים, כמו minDALL-E, איטיים ב-2 שניות בערך מדגמי דיפוזיה עם ספירת פרמטרים דומה. GigaGAN לוקח רק 0.14 שניות כאשר דגמים מבוססי GAN מבצעים הסקה של צעד אחד.
מגמות כוללות בהיבטים. בין המודלים הנוכחיים, היבטים מסוימים מציגים קורלציות חיוביות, כגון יישור כללי והיגיון, כמו גם אסתטיקה ומקוריות. מצד שני, כמה היבטים מראים פשרות; מודלים המצטיינים באסתטיקה (למשל, Openjourney) נוטים לקבל ציון נמוך יותר בפוטוריאליזם, ומודלים שמפגינים פחות הטיה ורעילות (למשל, minDALL-E) עשויים שלא לבצע את הביצועים הטובים ביותר ביישור טקסט-תמונה ופוטוריאליזם. בסך הכל, מספר היבטים ראויים לתשומת לב. ראשית, כמעט כל הדגמים מציגים ביצועים נמוכים בהיגיון, פוטוריאליזם ורב לשוניות, מה שמדגיש את הצורך בשיפורים עתידיים בתחומים אלה. בנוסף, היבטים כמו מקוריות (סימני מים), רעילות והטיה נושאים השלכות אתיות ומשפטיות משמעותיות, אך המודלים הנוכחיים עדיין אינם מושלמים, ויש צורך במחקר נוסף כדי לטפל בחששות אלה.
הנדסה מהירה. מודלים המשתמשים בטכניקות הנדסה מיידיות מייצרים תמונות מושכות יותר מבחינה ויזואלית. Promptist + Stable Diffusion v1-4 מתעלה על Stable Diffusion במונחים של ציון אסתטיקה בדירוג אנושי תוך השגת ציון יישור טקסט-תמונה דומה.[14]
סגנונות אמנות. על פי מדרגים אנושיים, Openjourney (מכוונן על דימויים אמנותיים שנוצרו על ידי Midjourney) יוצר את התמונות האסתטיות ביותר על פני סגנונות האמנות השונים.[15] אחריו מופיעים Dreamlike Photoreal 2.0 ו-DALL-E 2. DALL-E 2 משיג את ציון היישור הגבוה ביותר בדירוג אנושי. Dreamlike Photoreal 2.0 (דיפוזיה יציבה מכווננת עדינה בצילומים ברזולוציה גבוהה) מפגין בהירות נושא מעולה בדירוג אנושי.
מתאם בין מדדים אנושיים ואוטומטיים. מקדמי המתאם בין מדדים בדירוג אנושי לבין מדדים אוטומטיים הם 0.42 עבור יישור (CLIPScore לעומת יישור בדירוג אנושי), 0.59 עבור איכות תמונה (FID לעומת פוטוריאליזם מדורג אנושי), ו-0.39 עבור אסתטיקה (אסתטיקה של LAION לעומת אסתטיקה מדורגת אנושית) .[16] המתאם הכללי חלש, במיוחד לאסתטיקה. ממצאים אלו מדגישים את החשיבות של שימוש בדירוגים אנושיים להערכת מודלים ליצירת תמונות במחקר עתידי.
דיפוזיה לעומת מודלים אוטורגרסיביים. בין הדגמים האוטורגרסיביים והדיפוזיה הפתוחים, מודלים אוטורגרסיבים דורשים גודל דגם גדול יותר כדי להשיג ביצועים הדומים למודלים של דיפוזיה ברוב המדדים. עם זאת, מודלים אוטורגרסיביים מראים ביצועים מבטיחים בהיבטים מסוימים, כגון הגיון. מודלים של דיפוזיה מפגינים יעילות גבוהה יותר בהשוואה למודלים אוטורגרסיביים בעת שליטה על ספירת פרמטרים.
סולמות דגם. דגמים מרובים עם ספירות פרמטרים משתנות זמינים בתוך משפחת הדגמים האוטורגרסיבים של DALL-E (0.4B, 1.3B, 2.6B) ומשפחת DeepFloyd-IF דיפוזיה (0.4B, 0.9B, 4.3B). דגמים גדולים יותר נוטים להתעלות על דגמים קטנים יותר בכל המדדים האנושיים, כולל יישור, פוטוריאליזם, בהירות הנושא ואסתטיקה.[17]
מהם הדגמים הטובים ביותר? בסך הכל, נראה ש-DALL-E 2 הוא ביצועים רב-תכליתי במדדים אנושיים. עם זאת, אין מודל אחד שמתגלה כבעל הביצועים הטובים ביותר בכל ההיבטים. דגמים שונים מראים עוצמות שונות. לדוגמה, Dreamlike Photoreal מצטיינת בפוטוריאליזם, ואילו Openjourney באסתטיקה. בהיבטים חברתיים, מודלים כמו minDALL-E, CogView2 ו-SafeStableDiffusion מתפקדים היטב בהפחתת רעילות והטיה. עבור רב לשוניות, נראה כי GigaGAN ודגמי DeepFloyd-IF מטפלים בהנחיות הינדי, ש-DALL-E 2 נאבק איתן. תצפיות אלו פותחות כיווני מחקר חדשים לחקור האם וכיצד לפתח מודלים המצטיינים בהיבטים רבים.

מאמר זה תחת רישיון CC BY 4.0 DEED.

[1] //crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios

[2] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

[3] //crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios

[4] //crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios

[5] //crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios

[6] //crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios

[7] //crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios

[8] //crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios

[9] //crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios

[10] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, //crfm.stanford. edu/heim/v1.1.0/?group=mscoco_dialect

[11] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness

[12] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, //crfm. stanford.edu/heim/v1.1.0/?group=mscoco_hindi, //crfm.stanford.edu/heim/v1.1. 0/?group=mscoco_spanish

[13] //crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios

[14] //crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios

[15] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles

[16] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, //crfm.stanford. edu/heim/v1.1.0/?group=mscoco_base

[17] //crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

L O A D I N G
. . . comments & more!