Autors:
(1) Qian Yang, Universitat de Zhejiang, contribució igual. Aquest treball es va dur a terme durant les pràctiques de Qian Yang a Alibaba Group; (2) Jin Xu, Alibaba Group, contribució igual; (3) Wenrui Liu, Universitat de Zhejiang; (4) Yunfei Chu, Grup Alibaba; (5) Xiaohuan Zhou, Grup Alibaba; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Grup Alibaba;(8) Zhou Zhao, Alibaba Group i corresponent a Zhou Zhao ([email protected]);
(9) Yichong Leng, Universitat de Zhejiang(10) Chang Zhou, Alibaba Group i corresponent a Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.3 AIR-Bench i 3.1 Visió general
4 Experiments4.3 Avaluació humana i 4.4 Estudi d'ablació del biaix posicional
Resultats detallats del benchmark de la Fundació
Font de dades. Vam recollir més de 19.000 mostres de dades per a la dimensió de la base, que inclouen 19 subtasques diferents. La font de dades i les estadístiques
Consulta i referència d'opció única. La consulta Q es forma mitjançant la concatenació d'una pregunta q i les opcions del candidat C. Per a la pregunta q, construïm preguntes principalment mitjançant GPT-4 (OpenAI, 2023), excepte per a les tasques de control de qualitat, ja que els conjunts de dades contenen preguntes de manera inherent i podem re- utilitzar-los. Concretament, dissenyem el missatge per a la tasca diferent i proporcionem tres preguntes com a demostracions. Posteriorment, GPT-4 genera preguntes addicionals diverses basades en aquestes entrades. Les preguntes generades es revisen manualment i es seleccionen 50 preguntes diferents per a cada tasca. La variabilitat en el format de la pregunta té com a objectiu avaluar la capacitat del model per seguir instruccions en lloc de dependre excessivament de plantilles específiques. Per a cada pregunta, generem més opcions candidates C a partir de diferents fonts: 1) Per a tasques amb opcions en conjunts de dades originals com AVQA (Yang et al., 2022), la reutilitzem directament; 2) Per a les tasques de classificació, seleccionem aleatòriament opcions del conjunt predeterminat de categories per servir com a opcions candidates; 3) Per a altres tasques, demanem a GPT-4 que generi directament les opcions candidates, que consisteixen en una opció correcta i tres opcions incorrectes. Recomanem que aquestes opcions incorrectes s'assemblen a la correcta, fent que la tasca d'elecció única sigui més difícil. La resposta de referència és l'opció correcta d'or. Per evitar el biaix de posició, les opcions dels candidats es barregen aleatòriament