Nová historie

AIR-Bench Foundation: Více než 19 000 vzorků dat pro komplexní vyhodnocení zvuku

podle Benchmarking in Business Technology and Software2m2024/10/16

NSO

Příliš dlouho; Číst

Základní benchmark AIR-Bench hodnotí 19 audio úloh pomocí více než 19 000 vzorků. GPT-4 generuje různé otázky s volbami kandidátů navrženými tak, aby zpochybňovaly modely.

featured image - AIR-Bench Foundation: Více než 19 000 vzorků dat pro komplexní vyhodnocení zvuku

autoři:

(1) Qian Yang, Univerzita Zhejiang, rovný příspěvek. Tato práce byla provedena během stáže Qian Yang ve společnosti Alibaba Group; (2) Jin Xu, Alibaba Group, rovný příspěvek; (3) Wenrui Liu, Zhejiang University; (4) Yunfei Chu, Alibaba Group; (5) Xiaohuan Zhou, Alibaba Group; (6) Yichong Leng, Alibaba Group; (7) Yuanjun Lv, Alibaba Group;

(8) Zhou Zhao, Alibaba Group a odpovídající Zhou Zhao ([email protected]);

(9) Yichong Leng, Zhejiang University

(10) Chang Zhou, Alibaba Group a korespondent Chang Zhou ([email protected]);

(11) Jingren Zhou, Alibaba Group.

Tabulka odkazů

Abstrakt a 1. Úvod

2 Související práce

3 AIR-Bench a 3.1 Přehled

3.2 Základní benchmark

3.3 Srovnávací test chatu

3.4 Strategie hodnocení

4 Experimenty

4.1 Modely

4.2 Hlavní výsledky

4.3 Lidské hodnocení a 4.4 Ablační studie pozičního zkreslení

5 Závěr a odkazy

Podrobné výsledky Foundation Benchmarku

3.2 Základní benchmark

Zdroj dat. Shromáždili jsme přes 19 000 vzorků dat pro dimenzi nadace, které zahrnují 19 různých dílčích úkolů. Zdroj dat a statistiky

jsou uvedeny v tabulce 1. Abychom zajistili spravedlivé a komplexní hodnocení každé schopnosti, zaměřili jsme se na rovnoměrné rozložení problémů souvisejících s různými schopnostmi během procesu sběru dat. Všechny zdroje zvuku byly získány z původních vývojových nebo testovacích podskupin, aby se zabránilo úniku dat.

Dotaz a reference s jednou volbou. Dotaz Q je tvořen zřetězením otázky q a možností kandidáta C. U otázky q vytváříme otázky hlavně pomocí GPT-4 (OpenAI, 2023), s výjimkou úloh QA, protože datové sady ve své podstatě obsahují otázky a můžeme je přímo re- používat je. Konkrétně navrhujeme výzvu pro konkrétní úkol a poskytujeme tři otázky jako ukázky. Následně GPT-4 generuje další různé otázky na základě těchto vstupů. Vygenerované otázky jsou ručně kontrolovány a pro každý úkol je vybráno 50 různých otázek. Variabilita formátu otázek má za cíl vyhodnotit schopnost modelu řídit se pokyny spíše než být příliš závislý na konkrétních šablonách. Pro každou otázku dále generujeme možnosti kandidátů C z různých zdrojů: 1) U úloh s možnostmi v původních souborech dat, jako je AVQA (Yang et al., 2022), je přímo znovu použijeme; 2) U klasifikačních úloh náhodně vybíráme možnosti z předem určené množiny kategorií, které slouží jako výběr kandidátů; 3) U ostatních úkolů vyzveme GPT-4, aby přímo vygeneroval výběr kandidátů, sestávající z jedné správné možnosti a tří nesprávných možností. Doporučujeme, aby se tyto nesprávné možnosti podobaly té správné, takže úkol s jednou volbou bude náročnější. Referenční odpověď je zlatá správná volba. Aby se předešlo zkreslení pozice, jsou volby kandidátů náhodně zamíchány

Tento dokument je pod licencí CC BY 4.0 DEED.