Аутори:
(1) Киан Ианг, Универзитет Зхејианг, Једнаки допринос. Овај рад је обављен током Киан Иангове праксе у Алибаба Групи;
(2) Јин Ксу, Алибаба Гроуп, Једнаки допринос;
(3) Венруи Лиу, Универзитет Зхејианг;
(4) Иунфеи Цху, Алибаба Гроуп;
(5) Ксиаохуан Зхоу, Алибаба Гроуп;
(6) Иицхонг Ленг, Алибаба група;
(7) Иуањун Лв, Алибаба Гроуп;
(8) Зхоу Зхао, Алибаба Гроуп и кореспондент са Зхоу Зхаоом (зхаозхоу@зју.еду.цн);
(9) Иицхонг Ленг, Универзитет Зхејианг
(10) Цханг Зхоу, Алибаба Гроуп и дописник Цханг Зхоу (ерицзхоу.зц@алибаба-инц.цом);
(11) Јингрен Џоу, Алибаба група.
3.2 Референтна вредност за оснивање
4 Експерименти
4.3 Људска процена и 4.4 Студија аблације пристрасности положаја
Детаљни резултати референтне вредности Фондације
Недавно су аудио-језички модели који прате упутства добили широку пажњу за интеракцију човека и звука. Међутим, одсуство мерила која би могла да процене могућности аудио-центричне интеракције омета напредак у овој области. Претходни модели су се првенствено фокусирали на процену различитих фундаменталних задатака, као што је аутоматско препознавање говора (АСР), и недостаје им процена отворених генеративних могућности усредсређених на аудио. Стога је изазов пратити напредак у домену великих аудио-језичких модела (ЛАЛМ) и дати смернице за будућа побољшања. У овом раду представљамо АИР-Бенцх (Аудио ИнстРуцтион Бенцхмарк), први бенцхмарк дизајниран да процени способност ЛАЛМ-а да разуме различите врсте аудио сигнала (укључујући људски говор, природне звукове и музику), и штавише, да комуницира са људима у текстуалном формату. АИР-Бенцх обухвата две димензије: основу и референтне вредности за ћаскање. Први се састоји од 19 задатака са приближно 19.000 питања са једним избором, са намером да се испита основна способност једног задатка ЛАЛМ-а. Последњи садржи 2к инстанци отворених података питања и одговора, директно процењујући разумевање модела на сложеном звуку и његову способност да прати упутства. Оба мерила захтевају да модел директно генерише хипотезе. Дизајнирамо јединствени оквир који користи напредне језичке моделе, као што је ГПТ-4, за процену резултата генерисаних хипотеза с обзиром на мета-информације звука. Експериментални резултати показују висок ниво конзистентности између евалуације засноване на ГПТ-4 и људске евалуације. Откривајући ограничења постојећих ЛАЛМ-а кроз резултате евалуације, АИР-Бенцх може пружити увид у правац будућег истраживања.
Недавни напредак у вештачкој општој интелигенцији значајно је вођен појавом великих језичких модела (ЛЛМ) (Бровн ет ал., 2020; ОпенАИ, 2022, 2023; Цховдхери ет ал., 2022; Анил ет ал., 2023; Тоуврон ет ал. ал., 2023а,б, Баи ет ал., 2023а); Ови модели показују изузетне способности у задржавању знања, укључивању у замршено расуђивање и решавању проблема у складу са људским намерама. Мотивисан упадљивим напретком у великим језичким моделима (ЛЛМ), домен великих аудио-језичких модела (ЛАЛМ) је прошао кроз револуционарну трансформацију. За перцепцију и разумевање богатих аудио сигнала и даље генерисање текстуалних одговора пратећи људска упутства, предложена су многа дела, као што су САЛМОНН (Танг ет ал., 2023а), БЛСП (Ванг ет ал., 2023а), Спеецх-ЛЛаМА (Ву ет ал., 2023а). ал., 2023а), и Квен-Аудио (Цху ет ал., 2023), показујући обећавајуће могућности за аудио-централне дијалоге.
Међутим, претходни ЛАЛМс (Танг ет ал., 2023а; Ванг ет ал., 2023а; Ву ет ал., 2023а; Цху ет ал., 2023; Хуанг ет ал., 2023б; Схен ет ал., 2023; Гонг ет ал. ., 2023. Ванг ет ал., 2023б) су се претежно концентрисали на евалуацију у специфичним основним задацима. Непостојање стандардизованог мерила за процену способности ових модела за праћење генеративних инструкција резултирало је ослањањем на приказивање примера или пуштање модела ћаскања за јавно експериментисање како би се демонстрирале њихове конверзацијске вештине. Овај приступ представља значајне изазове за спровођење фер и објективних поређења између различитих истраживачких подухвата. Штавише, има тенденцију да прикрије постојећа ограничења модела, ометајући могућност праћења напретка у домену ЛАЛМ-а.
За евалуацију у аудио доменима, већина истраживачких напора је концентрисана на креирање мерила прилагођених појединачним задацима као што су ЛибриСпеецх (Панаиотов ет ал., 2015) и Цоммон Воице бенцхмарк (Ардила ет ал., 2019) за АСР. Осим оних који се односе на специфичне задатке, мерила као што су СУПЕРБ (Ианг ет ал., 2021а) и ХЕАР (Туриан ет ал., 2021) су дизајнирана да тестирају свестраност модела учења са самонадзором у широком спектру задатака. Што се тиче процене способности ЛАЛМ-а да прате упутства, колико је нама познато, Динамиц-СУПЕРБ (Хуанг ет ал., 2023а) је једино мерило које је посвећено овом аспекту. Ипак, Динамиц-СУПЕРБ се фокусира само на обраду људског говора, а не проширује се на процену способности модела у производњи отворених генерација као што су дијалози.
У овом раду представљамо АИР-Бенцх (Аудио ИнстРуцтион Бенцхмарк), нови бенцхмарк дизајниран да процени способност ЛАЛМ-а да схвате различите аудио сигнале и да комуницирају пратећи упутства. АИР-Бенцх карактеришу три основне карактеристике: 1) Свеобухватна покривеност аудио сигналима. АИР-Бенцх нуди свеобухватну покривеност аудио сигнала, укључујући људски говор, природне звукове и музику, обезбеђујући свеобухватну процену могућности ЛАЛМ-а. 2) Хијерархијска бенцхмарк структура. Репер се састоји од референтних вредности за основу и ћаскање. Референтни стандард се састоји од 19 различитих аудио задатака са преко 19.000 питања са једним избором, при чему се свако питање фокусира само на одређену основну способност. ГПТ-4 (ОпенАИ, 2023) проширује питања и изборе кандидата користећи наменске дизајниране упите. Компонента ћаскања се састоји од преко 2000 отворених питања подстакнутих звуком. Да бисмо побољшали сложеност звука и постигли ближу сличност са замршеним звуком који се среће у стварним ситуацијама, предлажемо нову стратегију миксовања звука која укључује контролу гласноће и временску дислокацију. Конкретно, подешавамо јачину звука и уводимо различите временске помаке током процеса мешања два аудио клипа. Резултирајуће варијације у релативној гласноћи и временској локацији се затим снимају као додатне мета-информације, доприносећи свеобухватнијем текстуалном представљању звука. Квалитет података се одржава кроз аутоматизовано филтрирање помоћу ГПТ-4, након чега следи ручна верификација. 3) Јединствен, објективан и поновљив оквир евалуације. Модели су потребни да генеришу секвенце хипотеза директно у оба бенчмарка да би се прецизније ускладили са практичним сценаријима. Затим користимо ГПТ-4 да генеришемо референтне одговоре дате мета-информације кроз пажљиво конструисане упите. С обзиром на референце и хипотезе, пратећи Лиу ет ал. (2023б); Баи ет ал. (2023б), користимо ГПТ-4 (ОпенАИ, 2023) да проценимо да ли је избор тачан за референтну вредност основе или хипотезе резултата за мерило за ћаскање. Даље вршимо друго бодовање тако што мењамо њихове позиције да елиминишемо пристрасност позиције. На основу свеобухватних експеримената на 9 ЛАЛМ-а, примећујемо да постојећи ЛАЛМ-ови или имају ограничено разумевање звука или могућности праћења инструкција, остављајући значајан простор за побољшање у овој области.
Наш допринос је сажет у наставку:
• АИР-Бенцх је прво генеративно мерило за процену великих аудио-језичких модела, обухватајући широку лепезу звука као што су говор, природни звуци и музика. АИР-Бенцх је велики и хијерархијски бенцхмарк, који се састоји од основног теста са 19 аудио задатака и преко 19.000 питања са једним избором, заједно са бенцхмарком за ћаскање са преко 2.000 пажљиво одабраних отворених аудио питања за свеобухватну евалуацију.
• Предлажемо нову стратегију миксовања звука са контролом гласноће и временском дислокацијом како бисмо побољшали сложеност звука.
• Развијен је јединствен, објективан и поновљив оквир евалуације за процену квалитета генеративних хипотеза.
• Извршили смо детаљну евалуацију 9 модела у сврху бенчмаркинга. Евалуациони код, скупови података и отворени ранг-лист ће ускоро бити јавно доступни.
Овај рад је под лиценцом ЦЦ БИ 4.0 ДЕЕД.