3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク
• Commonsense Reasoning (0-shot): Hellaswag [32]、Winogrande [26]、PIQA [3]、SIQA [27]、OpenbookQA [22]、ARC-Easy、ARC-Challenge [8]、CommonsenseQA [30]
• 世界知識(5回): NaturalQuestions [20]、TriviaQA [19]
• 読解力(0点): BoolQ [7]、QuAC [5]
• 数学: GSM8K [9] (8ショット)、maj@8、MATH [17] (4ショット)、maj@4
• コード:ヒューマニバル [4] (0発) および MBPP [1] (3発)
• 人気の集計結果: MMLU [16] (5回)、BBH [29] (3回)、AGI Eval [34] (3~5回、英語の多肢選択問題のみ)
サイズと効率。コスト パフォーマンス スペクトルにおける Mixtral モデルの効率性を理解するために、パフォーマンスを Llama 2 ファミリーと比較します (図 3 を参照)。Mixtral はスパースな Mixtureof-Experts モデルとして、トークンごとに 130 億のアクティブ パラメータのみを使用します。アクティブ パラメータが 5 分の 1 に抑えられた Mixtral は、ほとんどのカテゴリで Llama 2 700 億を上回るパフォーマンスを発揮します。
評価の違い。一部のベンチマークでは、私たちの評価プロトコルと Llama 2 論文で報告されたものとの間にいくつかの違いがあります。1) MBPP では、手動で検証されたサブセットを使用します。2) TriviaQA では、Wikipedia コンテキストを提供しません。
著者:
(1)アルバート・Q・ジャン(2)アレクサンドル・サブレイロール(3)アントワーヌ・ルー(4)アーサー・メンシュ(5)ブランシュ・サヴァリー(6)クリス・バンフォード(7)デヴェンドラ・シン・チャプロット(8)ディエゴ・デ・ラス・カサス(9)エマ・ボウ・ハンナ(10)フロリアン・ブレッサンド(11)ジャンナ・レンゲル(12)ギヨーム・ブール(13)ギヨーム・ランプル(14)レリオ・ルナール・ラヴォー(15)ルシール・ソルニエ(16)マリーアンヌ・ラショー(17)ピエール・ストック(18)サンディープ・スブラマニアン(19)ソフィア・ヤン(20)シモン・アントニアク(21)テヴェン・ル・スカオ(22)テオフィル・ジェルヴェ(23)ティボー・ラヴリル(24)トーマス・ワン(25)ティモシー・ラクロワ(26)ウィリアム・エル・サイード