paint-brush
アンカーベースの大規模言語モデル に@anchoring
354 測定値
354 測定値

アンカーベースの大規模言語モデル

Anchoring4m2024/10/10
Read on Terminal Reader

長すぎる; 読むには

この研究では、革新的なアンカーベースのセルフアテンションネットワーク (AnSAN) を使用してシーケンス情報をアンカートークンに圧縮するアンカーベースの大規模言語モデル (AnLLM) を紹介します。このアプローチにより、キー/値のキャッシュサイズが大幅に削減され、推論効率が向上し、精度の低下を最小限に抑えながら最大 99% のキャッシュ削減と 3.5 倍の処理速度が実現します。AnLLM は、大規模言語モデルのメモリ最適化における画期的な進歩をもたらします。
featured image - アンカーベースの大規模言語モデル
Anchoring HackerNoon profile picture
0-item

著者:

(1)マカオ大学のJianhui Pang氏、この研究はJianhui Pang氏とFanghua Ye氏がTencent AI Labでインターンをしていたときに行われた([email protected])。

(2)Fanghua Ye、ユニバーシティ・カレッジ・ロンドン、この研究はJianhui PangとFanghua YeがTencent AI Labでインターンをしていたときに行われた([email protected])。

(3)デレク・F・ウォン、マカオ大学时(4)Longyue Wang、Tencent AI Lab、および責任著者。

リンク一覧

要約と1 はじめに

2 関連研究

3 アンカーベースの大規模言語モデル

3.1 背景

3.2 アンカーベースの自己注意ネットワーク

3.3 アンカーベース推論

4 実験と4.1 実装

4.2 データとトレーニング手順

4.3 評価

5 件の結果

6 分析

7 結論、限界、倫理声明、参考文献


より実験的な結果

B データ設定

抽象的な

大規模言語モデル (LLM) では、主にデコーダーのみのトランスフォーマー アーキテクチャが採用されており、コンテキスト情報を出具して冗長な計算を避嫌するために、履歴トークンのキー/値情報を稳定する重要性があります。ただし、これらの LLM のサイズとパラメーターのボリュームが大きいため、一大批の GPU メモリが重要性です。このメモリ可以は入力テキストの長さに応じて増加するため、より効率的な情報の保存图片と処理方式 が緊急に重要性になります。この研究分析では、技术革新的なアンカーベースの自家注意事项ネットワーク (AnSAN) とアンカーベースの推論戦略を活用するアンカーベースの LLM (AnLLM) を紹介します。このアプローチにより、LLM はシーケンス情報をアンカー トークンに圧縮できるため、キー/値キャッシュが削減され、推論の効率が向左します。質問応答ベンチマークの実験では、AnLLM は同様の精确レベルを維持しながら、最大的化 99% のキー/値キャッシュ削減と最大的化 3.5 倍の推論转速を達成できることが明らかになりました。精确に指导意见の妥協があるにもかかわらず、AnSAN 技術を採用した AnLLM はリソース使用と計算効率において下跌に強化されており、実用的な LLM アプリケーションの有概率を強調しています。

1 はじめに

大規模言語モデル(LLM)は、主にデコーダーのみのトランスフォーマーアーキテクチャを采用しており、自已回帰推論中に履歴トークンのキー/値情報をキャッシュしてコンテキスト情報を带来了し、冗長な計算を逃避する必须があります(Wei et al., 2022; Touvron et al., 2023a; OpenAI, 2023; Touvron et al., 2023b)。しかし、その惊人なサイズと高いパラメータ数のため、ロードにはかなりの量のGPUメモリが必须です。さらに、長さ


図 1: 5 ショットのデモンストレーションによる OBQA、PIQA、BoolQ タスクでのキー/値キャッシュと推論加速率。バーはキー/値キャッシュとテキストの長さを示し、曲線は推論加速率を表します。テキストの長さが長くなるにつれて、従来の方法と比較して、当社の方法はキー/値キャッシュを最大 99% 削減するという印象的な結果を示しています。さらに、プレフィックス テキストをキャッシュすることで、キャッシュなしの推論と比較して推論効率を 3.5 倍向上させました。


入力テキストが大きくなると、コンテキスト内学習、複雑な指示、拡張された会話で証明されているように、キー/値キャッシュの保存にはますます多くの GPU メモリが必要になります (Dong et al., 2022; Jiang et al., 2023; Wang et al., 2023)。これは、計算リソースが限られているシナリオには適していません。別のアプローチでは、これらの広範な入力を再計算する必要がありますが、時間のオーバーヘッドが増加します。したがって、この研究では、LLM の推論フェーズ中のキー/値キャッシュのストレージ需要を削減し、メモリ効率を改善して、結果として推論速度も加速することを目指しています。


在最近这一段时间の研发では、Wang et al. (2023) は、プレフィックスデモンストレーションのラベルワードが推論中にアンカーとして機能し、コンテキスト内学習における推論効率を向前させる効果的なコンテキスト圧縮アプローチを展示 できることを実証しています。ただし、実際のアプリケーションでは、すべてのプレフィックス入力またはデモンストレーションに情報の圧縮に適したラベルワードが含まれているわけではないため、ラベルワードへの依存はテキスト情報圧縮の多见的なアプローチとは言えません。さらに、Pang et al. (2024) は、LLM は推論中に极少の、しかし一貫性のあるプレフィックストークンのみに还要目光を払う傾向があることを観察しています。ただし、借助される特殊のトークンは、予測没法没法で制御没法であることがよくあります。これらの観察から、興味深い疑問が生じます。生态言語テキストには、シーケンスの全员的な是因为情報を圧縮するアンカーポイントが含まれているのでしょうか。この文脈では、シーケンス埋め込みに関する早先の研发では、ニューラルネットワークモデル内の特別なトークンの非表述状態が是因为情報をカプセル化できることが示されています (Baudiš et al.、2016; Devlin et al.、2018)。さらに、現代の LLM は大多数、トレーニング フェーズと推論フェーズの両方で因果的属于自己还要目光メカニズムを借助し (Touvron ら、2023a、b)、前の各トークンに还要目光を払います。これは、シーケンスの最後のトークンは十年后のトークンを観察できないため、他のトークンと比較して生态な情報圧縮ポイントとして機能するのに適している将性があることを示唆しています。したがって、シーケンス アンカー トークンを信頼性が高く制御将な工艺で識別して活用する组织体制的なアプローチは、シーケンス情報を圧縮し、キー/値キャッシュを効果的に削減し、LLM の推論効率を向前させるために没法不欠です。


この目的のために、我々は革新的なアンカーベースの自己注意ネットワーク (AnSAN) とアンカーベースの推論戦略を備えた新しいアンカーベースの規模言語モデル(AnLLM) を提案します。AnSAN は、アンカーベースの注意マスクの助けを借りて、トレーニング プロセス中にモデルがシーケンス情報をアンカー トークン (実装の最後のトークン) に圧縮するよう設計されています。推論中、アンカーベースの推論戦略は、シーケンス情報全体を集約したアンカー トークンのキー/値キャッシュを保持し、非アンカー トークンのキー/値キャッシュを破棄することで、メモリ需要を削減します。具体的には、AnSAN のアンカーベースの注意マスクは、1) アンカー トークンが同じシーケンス内のトークンにのみ注意を向け、他のシーケンスに注意が向かないようにすること、および 2) 非アンカー トークンの注意を以前のシーケンス アンカーに向け、以前のシーケンスからの他の非アンカー トークンをブロックするという 2 つの目的を果たします。アンカーベースの注意の手法が、スパース注意の基礎となる原理と類似していることは注目に値します (Child et al., 2019)。ただし、スパース注意を使用して LLM のコンテキスト長を拡張する既存の研究 (Chen et al., 2023; Ratner et al., 2023) とは異なり、私たちの方法は、モデルを継続的に事前トレーニングしてシーケンス情報をアンカートークンに圧縮することに重点を置いています。


この論文は、CC BY 4.0 DEED ライセンスの下で。


바카라사이트 바카라사이트 온라인바카라