Bagong kasaysayan

AIR-Bench Foundation: Mahigit sa 19k Mga Sample ng Data para sa Comprehensive Audio Evaluation

sa pamamagitan ng Benchmarking in Business Technology and Software2m2024/10/16

NSO

Masyadong mahaba; Upang basahin

Sinusuri ng benchmark ng pundasyon ng AIR-Bench ang 19 na audio task gamit ang mahigit 19k sample. Ang GPT-4 ay bumubuo ng magkakaibang mga tanong, na may mga pagpipilian ng kandidato na idinisenyo upang hamunin ang mga modelo.

featured image - AIR-Bench Foundation: Mahigit sa 19k Mga Sample ng Data para sa Comprehensive Audio Evaluation

Mga may-akda:

(1) Qian Yang, Zhejiang University, Pantay na kontribusyon. Ang gawaing ito ay isinagawa sa panahon ng internship ni Qian Yang sa Alibaba Group; (2) Jin Xu, Alibaba Group, Pantay na kontribusyon; (3) Wenrui Liu, Zhejiang University; (4) Yunfei Chu, Alibaba Group; (5) Xiaohuan Zhou, Alibaba Group; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Alibaba Group;

(8) Zhou Zhao, Alibaba Group at Tumutugma kay Zhou Zhao ([email protected]);

(9) Yichong Leng, Zhejiang University

(10) Chang Zhou, Alibaba Group at Kaugnay ng Chang Zhou ([email protected]);

(11) Jingren Zhou, Alibaba Group.

Talaan ng mga Link

Abstrak at 1. Panimula

2 Kaugnay na Gawain

3 AIR-Bench at 3.1 Pangkalahatang-ideya

3.2 Foundation Benchmark

3.3 Benchmark ng Chat

3.4 Estratehiya sa Pagsusuri

4 Mga Eksperimento

4.1 Mga Modelo

4.2 Pangunahing Resulta

4.3 Pagsusuri ng Tao at 4.4 Pag-aaral ng Ablation ng Posisyonal na Pagkiling

5 Konklusyon at Sanggunian

Isang Detalyadong Resulta ng Foundation Benchmark

3.2 Foundation Benchmark

Pinagmulan ng Data. Nakakolekta kami ng mahigit 19k na sample ng data para sa dimensyon ng pundasyon, na sumasaklaw sa 19 na magkakaibang subtask. Ang data source at statistics

ay ibinigay sa Talahanayan 1. Upang matiyak ang isang patas at komprehensibong pagsusuri ng bawat kakayahan, nilalayon namin ang pantay na pamamahagi ng mga problemang nauugnay sa iba't ibang kakayahan sa panahon ng proseso ng pangongolekta ng data. Nakuha ang lahat ng audio source mula sa orihinal na dev o mga subset ng pagsubok upang maiwasan ang pagtagas ng data.

Single-choice na Query at Sanggunian. Ang query Q ay nabuo sa pamamagitan ng pagsasama-sama ng isang tanong q at mga pagpipilian ng kandidato C. Para sa tanong na q, pangunahing bumubuo kami ng mga tanong sa pamamagitan ng GPT-4 (OpenAI, 2023), maliban sa mga gawain sa QA dahil ang mga dataset ay likas na naglalaman ng mga tanong at maaari naming direktang muling- gamitin ang mga ito. Sa partikular, idinisenyo namin ang prompt para sa natatanging gawain at nagbibigay ng tatlong tanong bilang mga demonstrasyon. Kasunod nito, ang GPT-4 ay bumubuo ng mga karagdagang magkakaibang tanong batay sa mga input na ito. Ang mga nabuong tanong ay manu-manong sinusuri, at 50 iba't ibang tanong ang pinipili para sa bawat gawain. Ang pagkakaiba-iba sa format ng tanong ay naglalayong suriin ang kakayahan ng modelo na sundin ang mga tagubilin sa halip na maging labis na umaasa sa mga partikular na template. Para sa bawat tanong, bubuo pa kami ng mga pagpipilian ng kandidato C mula sa iba't ibang mapagkukunan: 1) Para sa mga gawaing may mga pagpipilian sa orihinal na mga dataset tulad ng AVQA (Yang et al., 2022), direkta naming muling ginagamit ito; 2) Para sa mga gawain sa pag-uuri, random kaming pumili ng mga opsyon mula sa paunang natukoy na hanay ng mga kategorya upang magsilbing mga pagpipilian ng kandidato; 3) Para sa iba pang mga gawain, sinenyasan namin ang GPT-4 na direktang bumuo ng mga pagpipilian ng kandidato, na binubuo ng isang tamang opsyon at tatlong maling opsyon. Hinihikayat namin ang mga maling opsyong ito na maging katulad ng tama, na ginagawang mas mapaghamong ang solong pagpipiliang gawain. Ang reference na sagot ay ang gintong tamang pagpipilian. Upang maiwasan ang pagkiling sa posisyon, ang mga pagpipilian ng kandidato ay random na binabasa

Ang papel na ito ay sa ilalim ng CC BY 4.0 DEED na lisensya.