Mpanoratra:
(1) Qian Yang, Anjerimanontolon'i Zhejiang, Fandraisana anjara mitovy. Ity asa ity dia natao nandritra ny internship an'i Qian Yang tao amin'ny Alibaba Group; (2) Jin Xu, Alibaba Group, Fandraisana anjara mitovy; (3) Wenrui Liu, Oniversite Zhejiang; (4) Yunfei Chu, Alibaba Group; (5) Xiaohuan Zhou, Alibaba Group; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Alibaba Group;
(8) Zhou Zhao, Alibaba Group ary Mifanaraka amin'i Zhou Zhao ([email protected]);
(9) Yichong Leng, Oniversite Zhejiang
(10) Chang Zhou, Alibaba Group ary mifanaraka amin'i Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.
Latabatra Rohy
Abstract and 1. Fampidirana
2 Asa mifandray
3 AIR-Bench sy 3.1 Overview
3.2 Fitsipika fototra
3.3 Chat Benchmark
3.4 Paikady fanombanana
4 Fanandramana
4.1 Modely
4.2 Vokatra lehibe
4.3 Fanombanana ny maha-olombelona sy 4.4 Fandinihana ny fanalana ny fitongilanana eo amin'ny toerana
5 Famaranana sy Fanondroana
Vokatra amin'ny antsipiriany momba ny benchmark fototra
Abstract
Vao haingana, ny modely amin'ny teny audio manaraka fampianarana dia nahazo fiheverana be dia be ho an'ny fifandraisan'ny olombelona-peo. Na izany aza, ny tsy fisian'ny mari-pamantarana afaka manombatombana ny fahaizan'ny fifaneraserana audio-centric dia nanakana ny fandrosoana amin'ity sehatra ity. Ny maodely teo aloha dia mifantoka indrindra amin'ny fanombanana ireo asa fototra isan-karazany, toy ny Automatic Speech Recognition (ASR), ary tsy misy fanombanana ny fahaiza-miteraka misokatra mifototra amin'ny feo. Noho izany, sarotra ny manara-maso ny fivoarana ao amin'ny sehatra Large Audio-Language Models (LALMs) ary manome tari-dalana ho an'ny fanatsarana ho avy. Ato amin'ity lahatsoratra ity, dia ampahafantarinay ny AIR-Bench (Audio InstRuction Benchmark), ny mari-pamantarana voalohany natao hanombanana ny fahafahan'ny LALMs amin'ny fahatakarana ireo karazana feo isan-karazany (anisan'izany ny fitenin'olombelona, ny feo voajanahary ary ny mozika), ary ankoatra izany, hifaneraserana amin'ny olombelona. amin'ny endrika soratra. Ny AIR-Bench dia misy lafiny roa: fototra sy mari-pamantarana chat. Ny voalohany dia misy asa 19 miaraka amin'ny fanontaniana safidy tokana 19k eo ho eo, mikasa ny hijery ny fahaiza-manaon'ny LALM fototra. Ity farany dia misy tranga 2k amin'ny angona fanontaniana sy valiny misokatra, manombana mivantana ny fahatakarana ny maodely amin'ny feo sarotra sy ny fahafahany manaraka toromarika. Ireo mari-pamantarana roa ireo dia mitaky ny modely hamokatra vinavina mivantana. Mamolavola rafitra iraisana izahay izay mampiasa maodely amin'ny fiteny mandroso, toy ny GPT-4, mba hanombanana ny isan'ny petra-kevitra novokarina nomena ny meta-information'ny feo. Ny valin'ny fanandramana dia mampiseho ny tsy fitoviana ambony eo amin'ny fanombanana mifototra amin'ny GPT-4 sy ny fanombanana ny olombelona. Amin'ny fanehoana ny fetran'ny LALM efa misy amin'ny alàlan'ny valin'ny fanombanana, ny AIR-Bench dia afaka manome fanazavana momba ny fitarihana fikarohana ho avy.
1 Fampidirana
Ny fandrosoana vao haingana amin'ny faharanitan-tsaina ankapoben'ny artifisialy dia natosiky ny fiposahan'ny maodely fiteny lehibe (LLMs) (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et. al., 2023a, b; Bai et al., 2023a). Ireo modely ireo dia mampiseho fahaiza-manao miavaka amin'ny fitazonana fahalalana, fandraisana anjara amin'ny fanjohian-kevitra sarotra, ary famahana olana manaraka ny fikasan'olombelona. Natosiky ny fandrosoana manaitra amin'ny maodely amin'ny fiteny lehibe (LLMs), dia nandalo fiovana revolisionera ny sehatry ny maodely amin'ny fiteny audio lehibe (LALMs). Mba hahitana sy hahatakarana ireo mari-pamantarana feo manankarena ary hamokatra valiny ara-tsoratra manaraka ny torolalan'olombelona, asa maro no natolotra, toy ny SALMONN (Tang et al., 2023a), BLSP (Wang et al., 2023a), Speech-LLaMA (Wu et al. al., 2023a), ary Qwen-Audio (Chu et al., 2023), mampiseho fahaiza-manao mampanantena ho an'ny fifanakalozan-dresaka audio-central.
Na izany aza, ny LALM teo aloha (Tang et al., 2023a; Wang et al., 2023a; Wu et al., 2023a; Chu et al., 2023; Huang et al., 2023b; Shen et al., 2023; Gong et al. ., 2023; Wang et al., 2023b) dia nifantoka tamin'ny fanombanana amin'ny asa fototra manokana. Ny tsy fisian'ny mari-pamantarana manara-penitra amin'ny fanombanana ny fahaizan'ny famokarana manaraka ireto maodely ireto dia nahatonga ny fianteherana amin'ny fampisehoana ohatra na ny famoahana ireo maodely amin'ny chat ho an'ny andrana ampahibemaso mba hanehoana ny fahaizany miresaka. Ity fomba fiasa ity dia miteraka fanamby lehibe amin'ny fanaovana fampitahana ara-drariny sy tanjona amin'ny fikarohana samihafa. Fanampin'izany, mazàna manamaivana ny fetran'ny modely efa misy izy io, manakana ny fahafahana manara-maso ny fandrosoana ao anatin'ny sehatry ny LALMs.
Ho an'ny fanombanana amin'ny sehatra audio, ny ankamaroan'ny ezaka fikarohana dia nifantoka tamin'ny famoronana mari-pamantarana mifanaraka amin'ny asa manokana toy ny LibriSpeech (Panayotov et al., 2015) ary ny mari-pamantarana Common Voice (Ardila et al., 2019) ho an'ny ASR. Ankoatra ny asa manokana, ny mari-pamantarana toa an'i SUPERB (Yang et al., 2021a) sy HEAR (Turian et al., 2021) dia natao hitsapana ny fahaizan'ny maodely fianarana mifehy tena amin'ny asa isan-karazany. Mikasika ny fanombanana ny fahafahan'ny LALM manaraka ny toromarika, araka ny fahalalantsika, ny Dynamic-SUPERB (Huang et al., 2023a) no hany marika natokana ho an'ity lafiny ity. Na izany aza, ny Dynamic-SUPERB dia tsy mifantoka afa-tsy amin'ny fanodinana ny tenin'olombelona, ary tsy miitatra amin'ny fanombanana ny fahaizan'ny modely amin'ny famokarana taranaka misokatra toy ny fifanakalozan-kevitra.
Ato amin'ity lahatsoratra ity, dia manolotra AIR-Bench (Audio InstRuction Benchmark), mari-pamantarana vaovao natao hanombanana ny fahafahan'ny LALMs hahatakatra ireo famantarana feo isan-karazany sy hifaneraserana manaraka ny torolàlana. Ny AIR-Bench dia miavaka amin'ny endri-javatra telo voalohany: 1) Fandrakofam-peo feno. Ny AIR-Bench dia manolotra fandrakofana feno momba ny mari-pamantarana audio, anisan'izany ny kabarin'olombelona, ny feo voajanahary ary ny mozika, miantoka ny fanombanana feno ny fahaizan'ny LALM. 2) Rafitra mari-pamantarana ambaratonga. Ny mari-pamantarana dia misy fototra sy mari-pamantarana chat. Ny mari-pamantarana fototra dia misy asa feo 19 miavaka miaraka amin'ny fanontaniana safidy tokana 19,000, ary ny fanontaniana tsirairay dia mifantoka amin'ny fahaizana fototra manokana. GPT-4 (OpenAI, 2023) dia manitatra ny fanontaniana sy ny safidin'ny kandidà amin'ny fampiasana bitsika voatokana. Ny singa amin'ny chat dia misy fanontaniana misokatra 2.000 mahery. Mba hanamafisana ny fahasarotan'ny feo sy hahatonga ny fitoviana akaiky kokoa amin'ny feo saro-pady hita amin'ny toe-javatra tena misy, dia manolotra paikady fampifangaroana feo vaovao izahay izay mampiditra ny fifehezana ny feo sy ny fivilian-toerana ara-nofo. Amin'ny ankapobeny, manitsy ny feo izahay ary mampiditra offset ara-potoana samihafa mandritra ny dingan'ny fampifangaroana raki-peo roa. Ny fiovaovan'ny feo sy ny toerana ara-potoana dia voarakitra ho fampahalalana meta fanampiny, izay manampy amin'ny fanehoana an-tsoratra feno kokoa ny feo. Ny kalitaon'ny angona dia tohanana amin'ny alalan'ny sivana mandeha ho azy avy amin'ny GPT-4, arahin'ny fanamarinana amin'ny tanana. 3) Rafitra fanombanana mitambatra, tanjona ary azo averina. Ny maodely dia takiana mba hamoronana filaharan'ny vinavina mivantana manerana ireo mari-pamantarana roa mba hampifanaraka tsara kokoa amin'ny toe-javatra azo ampiharina. Avy eo, mampiasa ny GPT-4 izahay hamokatra valiny fanondro nomena fampahalalana meta amin'ny alàlan'ny bitsika namboarina tsara. Nomena references sy hypotheses, manaraka an'i Liu et al. (2023b); Bai et al. (2023b), mampiasa GPT-4 (OpenAI, 2023) izahay hitsarana raha marina ny safidy ho an'ny mari-pamantarana fototra na vinavina isa ho an'ny mari-pamantarana chat. Manao isa fanindroany isika amin'ny alalan'ny famadihana ny toerany mba hanafoanana ny fitongilanana. Miorina amin'ny fanandramana feno momba ny LALM 9, dia hitantsika fa ny LALM efa misy dia manana fahatakarana feo voafetra na fahaiza-manao fanaraha-maso, ka mamela toerana lehibe ho an'ny fanatsarana amin'ity sehatra ity.
Ny fandraisantsika anjara dia fintinina eto ambany:
• AIR-Bench no mari-pamantarana fanombanana ara-pamokarana voalohany ho an'ny maodely amin'ny teny audio lehibe, ahitana karazana feo maro be toy ny kabary, feo voajanahary ary mozika. AIR-Bench dia mari-pamantarana lehibe sy ambaratonga ambony, ahitana ny mari-pamantarana fototra miaraka amin'ny asa audio 19 sy fanontaniana safidy tokana 19k, miaraka amin'ny mari-pamantarana amin'ny chat miaraka amin'ny fanontaniana audio misokatra 2k voarindra tsara ho an'ny fanombanana feno.
• Manolotra paikady fampifangaroana feo vaovao miaraka amin'ny fifehezana ny feo sy ny fivilian-toerana ara-nofo izahay mba hanatsarana ny fahasarotan'ny feo.
• Natsangana ny rafitra fanombanana mitambatra, tanjona ary azo averina mba hanombanana ny kalitaon'ny vinavina miteraka.
• Nanao fanombanana lalina momba ny modely 9 izahay ho an'ny tanjona fanombanana. Havoaka tsy ho ela ny kaody fanombanana, ny angon-drakitra ary ny takelaka misokatra misokatra.
Ity taratasy ity dia eo ambanin'ny lisansa CC BY 4.0 DEED.