Nova Història

Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

per Benchmarking in Business Technology and Software2m2024/10/16

NSO

Massa Llarg; Per llegir

El punt de referència bàsic d'AIR-Bench avalua 19 tasques d'àudio utilitzant més de 19 mil mostres. GPT-4 genera preguntes diverses, amb opcions de candidats dissenyades per desafiar els models.

featured image - Fundació AIR-Bench: més de 19.000 mostres de dades per a una avaluació completa d'àudio

Autors:

(1) Qian Yang, Universitat de Zhejiang, contribució igual. Aquest treball es va dur a terme durant les pràctiques de Qian Yang a Alibaba Group; (2) Jin Xu, Alibaba Group, contribució igual; (3) Wenrui Liu, Universitat de Zhejiang; (4) Yunfei Chu, Grup Alibaba; (5) Xiaohuan Zhou, Grup Alibaba; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Grup Alibaba;

(8) Zhou Zhao, Alibaba Group i corresponent a Zhou Zhao ([email protected]);

(9) Yichong Leng, Universitat de Zhejiang

(10) Chang Zhou, Alibaba Group i corresponent a Chang Zhou ([email protected]);

(11) Jingren Zhou, Alibaba Group.

Taula d'enllaços

Resum i 1. Introducció

2 Treball relacionat

3 AIR-Bench i 3.1 Visió general

3.2 Referent de la Fundació

3.3 Xat de referència

3.4 Estratègia d'avaluació

4 Experiments

4.1 Models

4.2 Principals resultats

4.3 Avaluació humana i 4.4 Estudi d'ablació del biaix posicional

5 Conclusió i referències

Resultats detallats del benchmark de la Fundació

3.2 Referent de la Fundació

Font de dades. Vam recollir més de 19.000 mostres de dades per a la dimensió de la base, que inclouen 19 subtasques diferents. La font de dades i les estadístiques

es proporcionen a la Taula 1. Per garantir una avaluació justa i completa de cada capacitat, hem pretès una distribució uniforme dels problemes relacionats amb les diferents habilitats durant el procés de recollida de dades. Totes les fonts d'àudio es van obtenir dels subconjunts de desenvolupament o de prova originals per evitar la fuga de dades.

Consulta i referència d'opció única. La consulta Q es forma mitjançant la concatenació d'una pregunta q i les opcions del candidat C. Per a la pregunta q, construïm preguntes principalment mitjançant GPT-4 (OpenAI, 2023), excepte per a les tasques de control de qualitat, ja que els conjunts de dades contenen preguntes de manera inherent i podem re- utilitzar-los. Concretament, dissenyem el missatge per a la tasca diferent i proporcionem tres preguntes com a demostracions. Posteriorment, GPT-4 genera preguntes addicionals diverses basades en aquestes entrades. Les preguntes generades es revisen manualment i es seleccionen 50 preguntes diferents per a cada tasca. La variabilitat en el format de la pregunta té com a objectiu avaluar la capacitat del model per seguir instruccions en lloc de dependre excessivament de plantilles específiques. Per a cada pregunta, generem més opcions candidates C a partir de diferents fonts: 1) Per a tasques amb opcions en conjunts de dades originals com AVQA (Yang et al., 2022), la reutilitzem directament; 2) Per a les tasques de classificació, seleccionem aleatòriament opcions del conjunt predeterminat de categories per servir com a opcions candidates; 3) Per a altres tasques, demanem a GPT-4 que generi directament les opcions candidates, que consisteixen en una opció correcta i tres opcions incorrectes. Recomanem que aquestes opcions incorrectes s'assemblen a la correcta, fent que la tasca d'elecció única sigui més difícil. La resposta de referència és l'opció correcta d'or. Per evitar el biaix de posició, les opcions dels candidats es barregen aleatòriament

Aquest document està sota la llicència CC BY 4.0 DEED.