Tato studie představuje Anchor-based Large Language Models (AnLLMs), které využívají inovativní Anchor-based Self-Attention Network (AnSAN) ke komprimaci sekvenčních informací do kotevního tokenu. Tento přístup výrazně snižuje velikosti mezipaměti klíčů/hodnot a zvyšuje efektivitu odvození, čímž je dosaženo až 99% snížení mezipaměti a 3,5x rychlejšího zpracování s minimálním kompromisem v přesnosti. AnLLM nabízejí průlom v optimalizaci paměti pro rozsáhlé jazykové modely.
autoři:
(1) Jianhui Pang z University of Macau a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);
(2) Fanghua Ye, University College London a práce byla vykonána, když Jianhui Pang a Fanghua Ye byli na stáži v Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Univerzita v Macau; (4) Longyue Wang, Tencent AI Lab a odpovídající autor.
Velké jazykové modely (LLM) převážně využívají pouze dekodérové transformátorové architektury, což vyžaduje uchování informací o klíčích/hodnotách pro historické tokeny, aby poskytovaly kontextové informace a vyhnuly se nadbytečným výpočtům. Značná velikost a objem parametrů těchto LLM však vyžadují masivní paměť GPU. Tato paměťová náročnost se zvyšuje s délkou vstupního textu, což vede k naléhavé potřebě efektivnějších metod ukládání a zpracování informací. Tato studie představuje Anchor-based LLMs (AnLLMs), které využívají inovativní samopozornou síť založenou na kotvě (AnSAN) a také inferenční strategii založenou na kotvě. Tento přístup umožňuje LLM komprimovat sekvenční informace do kotevního tokenu, čímž se snižuje mezipaměť klíčů/hodnot a zvyšuje se účinnost odvození. Experimenty s benchmarky odpovědí na otázky odhalují, že AnLLM si udržují podobné úrovně přesnosti, přičemž dosahují až 99% snížení mezipaměti klíčů/hodnot a až 3,5krát rychlejšího vyvozování. Navzdory menšímu kompromisu v přesnosti podtrhují podstatná vylepšení AnLLM využívající techniku AnSAN ve využití zdrojů a výpočetní účinnosti jejich potenciál pro praktické aplikace LLM.
1 Úvod
Velké jazykové modely (LLM) primárně využívají pouze dekodérové transformátorové architektury, které vyžadují ukládání informací o klíčích/hodnotách do mezipaměti pro historické tokeny během auto-regresivní inference, aby poskytly kontextové informace a vyhnuly se redundantním výpočtům (Wei et al., 2022; Touvron et al. 2023a, 2023, Touvron a kol., 2023b). Vzhledem k jejich obrovské velikosti a vysokému počtu parametrů je však pro načítání vyžadováno značné množství paměti GPU. Navíc jako délka
vstupního textu roste, ukládání klíčů/hodnot mezipaměti vyžaduje stále více paměti GPU, jak dokazují kontextové učení, složité instrukce a rozšířené konverzace (Dong a kol., 2022; Jiang a kol., 2023; Wang a kol. , 2023), což není příznivé pro scénáře s omezenými výpočetními zdroji. Alternativní přístup znamená přepočítání těchto rozsáhlých vstupů, což však vede ke zvýšení časové režie. Tato studie si proto klade za cíl snížit nároky na úložiště pro mezipaměti klíčů/hodnot během inferenční fáze LLM, zlepšit efektivitu paměti a následně také zrychlit rychlost inference.
V nedávné studii Wang a kol. (2023) demonstrují, že popisková slova v předponových demonstracích mohou fungovat jako kotvy během vyvozování, poskytující efektivní přístup komprese kontextu pro zlepšení efektivity vyvozování v kontextu učení. V praktických aplikacích však ne všechny předponové vstupy nebo ukázky obsahují popisková slova vhodná pro kompresi informací, takže spoléhání na popisková slova je méně univerzální přístup pro kompresi textových informací. Kromě toho Pang a kol. (2024) pozorují, že LLM mají tendenci věnovat se pouze několika, přesto konzistentním, předponovým tokenům během inference. Konkrétní používané tokeny jsou však často nepředvídatelné a nekontrolovatelné. Tato pozorování vyvolávají zajímavou otázku: obsahují texty v přirozeném jazyce kotevní body, které komprimují celkovou sémantickou informaci sekvencí? V této souvislosti předchozí studie o vkládání sekvencí ukázaly, že skrytý stav speciálního tokenu v modelech neuronové sítě může zapouzdřit sémantickou informaci (Baudiš et al., 2016; Devlin et al., 2018). Současné LLM navíc typicky využívají mechanismus kauzální sebepozornosti během tréninkové i inferenční fáze (Touvron et al., 2023a,b), přičemž se účastní každého předchozího tokenu. To naznačuje, že konečný token v sekvenci může být vhodnější, aby sloužil jako přirozený bod komprimace informací ve srovnání s jinými tokeny, protože nemohou pozorovat budoucí tokeny. Proto je metodický přístup, který identifikuje a využívá tokeny ukotvení sekvencí spolehlivým a kontrolovatelným způsobem, nezbytný pro komprimaci sekvenčních informací, efektivní snížení mezipaměti klíčů/hodnot a zlepšení efektivity vyvozování pro LLM.
Za tímto účelem navrhujeme nové modelyvelkéhojazyka založené na kotvách (AnLLMs), vybavené inovativní sítí sebepozorování založenou na kotvách ( AnSAN) a strategií vyvozování založené na kotvách. AnSAN je navržen tak, aby přinutil modely komprimovat sekvenční informace do kotvícího tokenu (posledního tokenu v naší implementaci) během tréninkového procesu, s pomocí kotevních masek pozornosti. Během inference strategie inference založená na kotvě zachovává mezipaměti klíčů/hodnot kotevních tokenů, které agregovaly informace o celé sekvenci, a vyřazuje ty z nekotevních tokenů, čímž snižuje nároky na paměť. Masky pozornosti založené na ukotvení pro AnSAN konkrétně slouží dvěma cílům: 1) zajistit, aby se tokeny ukotvení věnovaly výhradně tokenům ve stejné sekvenci, čímž zabránily pozornosti jiným sekvencím, a 2) nasměrovat pozornost nekotevních tokenů na předchozí kotvy sekvencí. , blokuje ostatní nekotevní tokeny z předchozích sekvencí. Je pozoruhodné, že technika pozornosti založené na kotvě má podobnosti s principy, na nichž je založena řídká pozornost (Child et al., 2019). Avšak na rozdíl od stávajícího výzkumu, který využívá řídkou pozornost k prodloužení délky kontextu LLM (Chen et al., 2023; Ratner et al., 2023), se naše metoda zaměřuje na neustálé předtrénování modelu pro komprimaci sekvenční informace do kotvy. žeton.