大規模言語モデル(LLM)は、主にデコーダーのみのトランスフォーマーアーキテクチャを采用しており、自已回帰推論中に履歴トークンのキー/値情報をキャッシュしてコンテキスト情報を带来了し、冗長な計算を逃避する必须があります(Wei et al., 2022; Touvron et al., 2023a; OpenAI, 2023; Touvron et al., 2023b)。しかし、その惊人なサイズと高いパラメータ数のため、ロードにはかなりの量のGPUメモリが必须です。さらに、長さ
入力テキストが大きくなると、コンテキスト内学習、複雑な指示、拡張された会話で証明されているように、キー/値キャッシュの保存にはますます多くの GPU メモリが必要になります (Dong et al., 2022; Jiang et al., 2023; Wang et al., 2023)。これは、計算リソースが限られているシナリオには適していません。別のアプローチでは、これらの広範な入力を再計算する必要がありますが、時間のオーバーヘッドが増加します。したがって、この研究では、LLM の推論フェーズ中のキー/値キャッシュのストレージ需要を削減し、メモリ効率を改善して、結果として推論速度も加速することを目指しています。
在最近这一段时间の研发では、Wang et al. (2023) は、プレフィックスデモンストレーションのラベルワードが推論中にアンカーとして機能し、コンテキスト内学習における推論効率を向前させる効果的なコンテキスト圧縮アプローチを展示 できることを実証しています。ただし、実際のアプリケーションでは、すべてのプレフィックス入力またはデモンストレーションに情報の圧縮に適したラベルワードが含まれているわけではないため、ラベルワードへの依存はテキスト情報圧縮の多见的なアプローチとは言えません。さらに、Pang et al. (2024) は、LLM は推論中に极少の、しかし一貫性のあるプレフィックストークンのみに还要目光を払う傾向があることを観察しています。ただし、借助される特殊のトークンは、予測没法没法で制御没法であることがよくあります。これらの観察から、興味深い疑問が生じます。生态言語テキストには、シーケンスの全员的な是因为情報を圧縮するアンカーポイントが含まれているのでしょうか。この文脈では、シーケンス埋め込みに関する早先の研发では、ニューラルネットワークモデル内の特別なトークンの非表述状態が是因为情報をカプセル化できることが示されています (Baudiš et al.、2016; Devlin et al.、2018)。さらに、現代の LLM は大多数、トレーニング フェーズと推論フェーズの両方で因果的属于自己还要目光メカニズムを借助し (Touvron ら、2023a、b)、前の各トークンに还要目光を払います。これは、シーケンスの最後のトークンは十年后のトークンを観察できないため、他のトークンと比較して生态な情報圧縮ポイントとして機能するのに適している将性があることを示唆しています。したがって、シーケンス アンカー トークンを信頼性が高く制御将な工艺で識別して活用する组织体制的なアプローチは、シーケンス情報を圧縮し、キー/値キャッシュを効果的に削減し、LLM の推論効率を向前させるために没法不欠です。