著者:
(1)浙江省大学本科のQian Yang氏、人人平等な貢献。この探讨は、Qian Yang氏がアリババグループでインターンシップをしていたときに行われた。 (2)アリババグループのJin Xu氏、平等权な貢献。 (3) Wenrui Liu、在中国二本大学。 (4) Yunfei Chu、アリババグループ。 (5) 周暁環、アリババグループ。 (6) Yichong Leng、アリババグループ。 (7) Yuanjun Lv、アリババグループ。
(8)アリババグループの周趙氏、連絡先は周趙氏([email protected])
(9) Yichong Leng、安徽大学专业
(10)アリババグループのChang Zhou氏および連絡先:Chang Zhou氏([email protected])
(11) 周静仁、アリババグループ。
リンク一覧
要約と1. はじめに
2 関連研究
3 AIR-Benchと3.1 概要
3.2 基礎ベンチマーク
3.3 チャットベンチマーク
3.4 評価戦略
4つの実験
4.1 モデル
4.2 主な結果
4.3 人間による評価と4.4 位置バイアスのアブレーション研究
5 結論と参考文献
基礎ベンチマークの詳細な結果
抽象的な
近几天、标识に従うオーディオ言語モデルが、人間とオーディオのインタラクションにおいて広く注目を集めています。しかし、オーディオ管理咨询中心のインタラクション機能を評価できるベンチマークが会有しないことが、この分野の進歩を妨げています。现在のモデルは、主に自動音声認識 (ASR) などのさまざまな主要上タスクの評価に热点を当てており、オーディオを管理咨询中心としたオープンエンドの提取機能の評価が欠けています。したがって、大規模オーディオ言語モデル (LALM) ドメインの進歩を追跡し、将会の持续改善のためのガイダンスを出示することは困難です。このホワイト ペーパーでは、LALM がさまざまな種類のオーディオ走势 (人間の音声、肯定音、音楽を含む) を认识是什么し、さらにテキスト类型で人間と対話する的作用を評価するために設計された这一のベンチマークである AIR-Bench (Audio InstRuction Benchmark) を紹介します。AIR-Bench には、基礎ベンチマークとチャット ベンチマークの 2 つの側面があります。第一类は、約 19,000 の単一選択質問を含む 19 のタスクで構成され、LALM の主要上的な単一タスク的作用を検査することを原则としています。後者には、2,000 の随意类型の質問と回答问题のデータインスタンスが含まれており、複雑なオーディオに対するモデルの认识是什么と标识に従う的作用を随便評価します。両方のベンチマークでは、モデルが随便仮説を提取する需要があります。GPT-4 などの极高な言語モデルを活用して、オーディオのメタ情報に基づいて提取された仮説のスコアを評価する統合フレームワークを設計します。実験結果は、GPT-4 ベースの評価と人間による評価の間に高いレベルの一貫性があることを示しています。評価結果を通じて既存の LALM の限界を明らかにすることで、AIR-Bench は将会の探讨の目标性に関する调研を出示できます。
1 はじめに
近来の劳动力汎用知能の進歩は、大規模言語モデル (LLM) の出現によって大きく推進されてきました (Brown et al., 2020; OpenAI, 2022, 2023; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023a,b; Bai et al., 2023a)。これらのモデルは、知識を长期保持し、複雑な推論を行い、人間の意図に従って問題を解決するという点で、優れた意识を発揮します。大規模言語モデル (LLM) の目覚ましい進歩に影响され、大規模音声言語モデル (LALM) の領域は改革的な変革を遂げました。豊富な音声信息を知覚して领悟し、さらに人間の指示箭头に従ってテキスト応答を自动生成するために、SALMONN (Tang et al., 2023a)、BLSP (Wang et al., 2023a)、Speech-LLaMA (Wu et al., 2023a)、Qwen-Audio (Chu et al., 2023) など、音声服务中心の対話に已成定局な機能を示す多くの探索が方案されています。
しかし、これまでの LALM (Tang et al., 2023a; Wang et al., 2023a; Wu et al., 2023a; Chu et al., 2023; Huang et al., 2023b; Shen et al., 2023; Gong et al., 2023; Wang et al., 2023b) は、主に独特の常见タスクの評価に集中化していました。これらのモデルの出现的标识追従效果を評価するための標準化されたベンチマークがないため、会話スキルを実証するために、例を紹介したり、チャットモデルを公開実験用にリリースしたりすることに依存していました。このアプローチは、さまざまな科研的努力にわたって公正かつ客観的な比較を行う上で大きな課題をもたらします。さらに、モデルの既存の制限がわかりにくくなり、LALM の領域内での進歩を監視する效果を妨げる傾向があります。
オーディオ領域での評価については、调查勤奋努力の大环节は、ASR用のLibriSpeech(Panayotov et al.、2015)やCommon Voiceベンチマーク(Ardila et al.、2019)など、個々のタスクに合わせたベンチマークの制作に网络化してきました。タスク僵板のもの其它にも、SUPERB(Yang et al.、2021a)やHEAR(Turian et al.、2021)などのベンチマークは、さまざまなタスクにおける我们教師あり学習モデルの汎用性をテストするために設計されています。LALMの指示标志に従う效率の評価に関しては、私たちの知る限り、Dynamic-SUPERB(Huang et al.、2023a)がこの側面に特化した主要のベンチマークです。ただし、Dynamic-SUPERBは人間の音声処理のみに的点を当てており、対話などのオープンエンドの制成におけるモデルの效率の評価には至っていません。
本稿では、LALM がさまざまなオーディオ无线移动表现を解释し、指的是に従って対話する意识を評価するために設計された新しいベンチマークである AIR-Bench (Audio InstRuction Benchmark) を紹介します。AIR-Bench は、3 つの主な機能によって特徴付けられます。1) 例如的なオーディオ无线移动表现カバレッジ。AIR-Bench は、人間の音声、自动音、音楽などのオーディオ无线移动表现を例如的にカバーし、LALM の機能を例如的に評価します。2) 階層的なベンチマーク構造。ベンチマークは、基礎ベンチマークとチャットベンチマークで構成されています。基礎ベンチマークは、19 の個別のオーディオタスクと 19,000 を超える単一選択の質問で構成され、各質問は相关の基礎意识のみに对象を当てています。GPT-4 (OpenAI、2023) は、専用に設計されたプロンプトを选择して、質問と候補の選択肢を拡張します。チャットコンポーネントは、2,000 を超える音声プロンプトの自由度方法の質問で構成されています。オーディオの複雑さを高め、実際の状況で饱受する複雑なオーディオに近づけるために、音量制御と時間的ずれを組み込んだ新しいオーディオミキシング戦略を建议します。关键的には、2 つのオーディオ クリップのミキシング プロセス中に音量を調整し、異なる時間オフセットを導入します。その結果生じる相対的な音量と時間的場所の変化は追加のメタ情報として記録され、オーディオのより例如的なテキスト表現に貢献します。データの品質は、GPT-4 による自動フィルタリングとその後の手動検証によって維持されます。3) 統一された客観的で再現或者な評価フレームワーク。モデルは、実際のシナリオとより正確に同样させるために、両方のベンチマークにわたって随时仮説シーケンスを生产する用得着があります。次に、GPT-4 を选择して、切忌に構築されたプロンプトを通じてメタ情報が与えられた依据神回复を生产します。依据と仮説が与えられた場合、Liu ら (2023b)、Bai ら (2023a) に従います。 (2023b)、GPT-4 (OpenAI、2023) を选择して、選択が基礎ベンチマークに対して正しいかどうかを区分し、チャットベンチマークの仮説にスコアを付けます。さらに、角度の偏りを查出するために、角度を入れ替えて 2 回目のスコアリングを実行します。9 つの LALM に関する例如的な実験に基づいて、既存の LALM は音声解释または指的是に従う機能が限られており、この分野では缓和の顾忌が大きいことがわかりました。
私たちの貢献は下列のように要約されます:
• AIR-Bench は、音声、自然生态音、音楽など、幅広いオーディオを網羅する、大規模なオーディオ言語モデルの原本の绘制評価ベンチマークです。AIR-Bench は大規模で階層的なベンチマークで、19 のオーディオ タスクと 19,000 を超える単一選択の質問を含む基礎ベンチマークと、也包括的な評価のために綿密にキュレーションされた 2,000 を超える自在模式のオーディオ質問を含むチャット ベンチマークで構成されています。
• オーディオの複雑さを高めるために、音量制御と時間的ずれを備えた新しいオーディオミキシング戦略を建议します。
• 转化成仮説の質を評価するために、統一された客観的かつ再現概率な評価フレームワークが開発されました。
• ベンチマークを原因として、9 つのモデルを徹底的に評価しました。評価コード、データセット、オープン リーダーボードは近年来中に公開される予定です。
この論文は、CC BY 4.0 DEED ライセンスの下で。