Mga may-akda:
(1) Qian Yang, Zhejiang University, Pantay na kontribusyon. Ang gawaing ito ay isinagawa sa panahon ng internship ni Qian Yang sa Alibaba Group; (2) Jin Xu, Alibaba Group, Pantay na kontribusyon; (3) Wenrui Liu, Zhejiang University; (4) Yunfei Chu, Alibaba Group; (5) Xiaohuan Zhou, Alibaba Group; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Alibaba Group;(8) Zhou Zhao, Alibaba Group at Tumutugma kay Zhou Zhao ([email protected]);
(9) Yichong Leng, Zhejiang University(10) Chang Zhou, Alibaba Group at Kaugnay ng Chang Zhou ([email protected]);
(11) Jingren Zhou, Alibaba Group.3 AIR-Bench at 3.1 Pangkalahatang-ideya
4 Mga Eksperimento4.3 Pagsusuri ng Tao at 4.4 Pag-aaral ng Ablation ng Posisyonal na Pagkiling
Isang Detalyadong Resulta ng Foundation Benchmark
Pinagmulan ng Data. Nakakolekta kami ng mahigit 19k na sample ng data para sa dimensyon ng pundasyon, na sumasaklaw sa 19 na magkakaibang subtask. Ang data source at statistics
Single-choice na Query at Sanggunian. Ang query Q ay nabuo sa pamamagitan ng pagsasama-sama ng isang tanong q at mga pagpipilian ng kandidato C. Para sa tanong na q, pangunahing bumubuo kami ng mga tanong sa pamamagitan ng GPT-4 (OpenAI, 2023), maliban sa mga gawain sa QA dahil ang mga dataset ay likas na naglalaman ng mga tanong at maaari naming direktang muling- gamitin ang mga ito. Sa partikular, idinisenyo namin ang prompt para sa natatanging gawain at nagbibigay ng tatlong tanong bilang mga demonstrasyon. Kasunod nito, ang GPT-4 ay bumubuo ng mga karagdagang magkakaibang tanong batay sa mga input na ito. Ang mga nabuong tanong ay manu-manong sinusuri, at 50 iba't ibang tanong ang pinipili para sa bawat gawain. Ang pagkakaiba-iba sa format ng tanong ay naglalayong suriin ang kakayahan ng modelo na sundin ang mga tagubilin sa halip na maging labis na umaasa sa mga partikular na template. Para sa bawat tanong, bubuo pa kami ng mga pagpipilian ng kandidato C mula sa iba't ibang mapagkukunan: 1) Para sa mga gawaing may mga pagpipilian sa orihinal na mga dataset tulad ng AVQA (Yang et al., 2022), direkta naming muling ginagamit ito; 2) Para sa mga gawain sa pag-uuri, random kaming pumili ng mga opsyon mula sa paunang natukoy na hanay ng mga kategorya upang magsilbing mga pagpipilian ng kandidato; 3) Para sa iba pang mga gawain, sinenyasan namin ang GPT-4 na direktang bumuo ng mga pagpipilian ng kandidato, na binubuo ng isang tamang opsyon at tatlong maling opsyon. Hinihikayat namin ang mga maling opsyong ito na maging katulad ng tama, na ginagawang mas mapaghamong ang solong pagpipiliang gawain. Ang reference na sagot ay ang gintong tamang pagpipilian. Upang maiwasan ang pagkiling sa posisyon, ang mga pagpipilian ng kandidato ay random na binabasa