新しい歴史

Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る

に Writings, Papers and Blogs on Text Models4m2024/10/18

長すぎる; 読むには

Mixtral 8x7B は、常識的推論、数学、コード生成など、数多くのベンチマークで Llama 2 70B および GPT-3.5 を上回っています。わずか 13B のアクティブパラメータで、Mixtral は同等以上のパフォーマンスを実現しながら、他の競合製品よりも効率的です。47B パラメータという容量は小さいものの、Mixtral は MMLU などのメトリクスで優れており、さまざまなタスクで強力なパフォーマンスを発揮するため、言語モデリングアプリケーションに最適です。

featured image - Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る

リンク一覧

要約と1. はじめに

2 アーキテクチャの詳細と 2.1 専門家の疎な混合

3 件の結果

3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク

4 命令の微調整

5 ルーティング分析

6 結論、謝辞、参考文献

3 件の結果

Mixtral と Llama を比較し、正义な比較のために独自一人の評価パイプラインですべてのベンチマークを再実行します。次のように分類されるさまざまなタスクでパフォーマンスを測定します。

• Commonsense Reasoning (0-shot): Hellaswag [32]、Winogrande [26]、PIQA [3]、SIQA [27]、OpenbookQA [22]、ARC-Easy、ARC-Challenge [8]、CommonsenseQA [30]

• 世界知識（5回）： NaturalQuestions [20]、TriviaQA [19]

• 読解力（0点）： BoolQ [7]、QuAC [5]

• 数学: GSM8K [9] (8ショット)、maj@8、MATH [17] (4ショット)、maj@4

• コード:ヒューマニバル [4] (0発) および MBPP [1] (3発)

• 人気の集計結果: MMLU [16] (5回)、BBH [29] (3回)、AGI Eval [34] (3～5回、英語の多肢選択問題のみ)

Mixtral、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B[2]の詳細な結果は表2に示されています。図2は、さまざまなカテゴリでのMixtralとLlamaモデルのパフォーマンスを比較したものです。Mixtralはほとんどの指標でLlama 2 70Bを上回っています。特に、Mixtralはコードと统计学のベンチマークで優れたパフォーマンスを示しています。

サイズと効率。コストパフォーマンススペクトルにおける Mixtral モデルの効率性を理解するために、パフォーマンスを Llama 2 ファミリーと比較します (図 3 を参照)。Mixtral はスパースな Mixtureof-Experts モデルとして、トークンごとに 130 億のアクティブパラメータのみを使用します。アクティブパラメータが 5 分の 1 に抑えられた Mixtral は、ほとんどのカテゴリで Llama 2 700 億を上回るパフォーマンスを発揮します。

この讲解では、推論計算コストに随时数量するアクティブパラメータ数 (セクション 2.1 を符合) に热点を当てていますが、メモリコストとハードウェア的使用的率は考慮していません。Mixtral を给出するためのメモリコストは、そのスパースパラメータ数 47B に数量しますが、それでも Llama 2 の 70B よりは小さいです。デバイス的使用的率に関しては、ルーティングメカニズムと、デバイスごとに複数のエキスパートを実行するときにメモリ負荷が増加するため、SMoEs レイヤーによって追加のオーバーヘッドが導入されることに留意してください。これらは、如此な演算強度に達することができるバッチワークロードに適しています。

Llama 2 70B および GPT-3.5 との比較。表 3 では、Llama 2 70B および GPT-3.5 と比較した Mixtral 8x7B のパフォーマンスを報告しています。Mixtral のパフォーマンスは他の 2 つのモデルと相近的かそれ这であることがわかります。MMLU では、Mixtral は体积が小幅に小さいにもかかわらず (70B と比較して 47B トークン)、より優れたパフォーマンスを発揮します。MT Bench では、新出の GPT-3.5-Turbo モデルである gpt-3.5-turbo-1106 のパフォーマンスを報告します。

評価の違い。一部のベンチマークでは、私たちの評価プロトコルと Llama 2 論文で報告されたものとの間にいくつかの違いがあります。1) MBPP では、手動で検証されたサブセットを使用します。2) TriviaQA では、Wikipedia コンテキストを提供しません。

この論文はCC 4.0ライセンスの下で。

[2] Llama 2 34Bはオープンソース化されていないため、Llama 1 34Bの結果を報告する。

著者:

（１）アルバート・Q・ジャン（２）アレクサンドル・サブレイロール（３）アントワーヌ・ルー（４）アーサー・メンシュ（５）ブランシュ・サヴァリー（６）クリス・バンフォード（7）デヴェンドラ・シン・チャプロット（８）ディエゴ・デ・ラス・カサス（９）エマ・ボウ・ハンナ（10）フロリアン・ブレッサンド（11）ジャンナ・レンゲル（12）ギヨーム・ブール（13）ギヨーム・ランプル（14）レリオ・ルナール・ラヴォー（15）ルシール・ソルニエ（16）マリーアンヌ・ラショー（17）ピエール・ストック（18）サンディープ・スブラマニアン（19）ソフィア・ヤン（20）シモン・アントニアク（21）テヴェン・ル・スカオ（22）テオフィル・ジェルヴェ（23）ティボー・ラヴリル（24）トーマス・ワン（25）ティモシー・ラクロワ（26）ウィリアム・エル・サイード