Este estudio presenta modelos de lenguaje a gran escala basados en anclas (AnLLMs), que emplean una innovadora red de autoatención basada en anclas (AnSAN) para comprimir la información de secuencia en un token de ancla. Este enfoque reduce significativamente los tamaños de caché de claves/valores y mejora la eficiencia de inferencia, logrando una reducción de caché de hasta el 99 % y un procesamiento 3,5 veces más rápido con un compromiso mínimo de precisión. Los AnLLMs ofrecen un gran avance en la optimización de la memoria para modelos de lenguaje a gran escala.
Autores:
(1) Jianhui Pang, de la Universidad de Macao, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);
(2) Fanghua Ye, University College London, y el trabajo se realizó cuando Jianhui Pang y Fanghua Ye estaban haciendo prácticas en Tencent AI Lab ([email protected]);
(3) Derek F. Wong, Universidad de Macao; (4) Longyue Wang, Tencent AI Lab y autor correspondiente.
Los modelos de lenguaje grandes (LLM) emplean predominantemente arquitecturas de transformadores que solo utilizan decodificadores, lo que requiere la retención de información de claves/valores para tokens históricos para proporcionar información contextual y evitar cálculos redundantes. Sin embargo, el tamaño sustancial y el volumen de parámetros de estos LLM requieren una memoria GPU masiva. Esta demanda de memoria aumenta con la longitud del texto de entrada, lo que genera una necesidad urgente de métodos más eficientes de almacenamiento y procesamiento de información. Este estudio presenta los LLM basados en anclas (AnLLM), que utilizan una innovadora red de autoatención basada en anclas (AnSAN) y también una estrategia de inferencia basada en anclas. Este enfoque permite a los LLM comprimir la información de secuencia en un token de ancla, lo que reduce la caché de claves/valores y mejora la eficiencia de la inferencia. Los experimentos en puntos de referencia de respuesta a preguntas revelan que los AnLLM mantienen niveles de precisión similares al tiempo que logran una reducción de la caché de claves/valores de hasta el 99% y una inferencia hasta 3,5 veces más rápida. A pesar de un pequeño compromiso en la precisión, las mejoras sustanciales de los AnLLM que emplean la técnica AnSAN en la utilización de recursos y la eficiencia computacional subrayan su potencial para aplicaciones prácticas de LLM.
1 Introducción
Los modelos de lenguaje grande (LLM) utilizan principalmente arquitecturas de transformadores que solo utilizan decodificadores, lo que requiere almacenar en caché la información de claves/valores para tokens históricos durante la inferencia autorregresiva para proporcionar información contextual y evitar cálculos redundantes (Wei et al., 2022; Touvron et al., 2023a; OpenAI, 2023; Touvron et al., 2023b). Sin embargo, debido a su inmenso tamaño y al alto recuento de parámetros, se requiere una cantidad considerable de memoria de GPU para la carga. Además, como la longitud
A medida que aumenta la cantidad de texto de entrada, el almacenamiento de cachés de claves/valores requiere cada vez más memoria de GPU, como se evidencia en el aprendizaje en contexto, las instrucciones complejas y las conversaciones prolongadas (Dong et al., 2022; Jiang et al., 2023; Wang et al., 2023), lo que no es propicio para escenarios con recursos computacionales limitados. Un enfoque alternativo implica recalcular estas entradas extensas, lo que, sin embargo, da como resultado una mayor sobrecarga de tiempo. Por lo tanto, este estudio tiene como objetivo reducir la demanda de almacenamiento de cachés de claves/valores durante la fase de inferencia de los LLM, mejorando la eficiencia de la memoria y, en consecuencia, acelerando también la velocidad de inferencia.
En un estudio reciente, Wang et al. (2023) demuestran que las palabras de etiqueta en demostraciones de prefijos pueden actuar como anclas durante la inferencia, lo que proporciona un enfoque de compresión de contexto eficaz para mejorar la eficiencia de la inferencia en el aprendizaje en contexto. Sin embargo, en aplicaciones prácticas, no todas las entradas o demostraciones de prefijos contienen palabras de etiqueta adecuadas para comprimir información, lo que hace que la dependencia de las palabras de etiqueta sea un enfoque menos universal para la compresión de información de texto. Además, Pang et al. (2024) observan que los LLM tienden a prestar atención solo a unos pocos tokens de prefijo, pero consistentes, durante la inferencia. Sin embargo, los tokens específicos utilizados son a menudo impredecibles e incontrolables. Estas observaciones plantean una pregunta intrigante: ¿los textos en lenguaje natural contienen puntos de anclaje que comprimen la información semántica general de las secuencias? En este contexto, estudios previos sobre incrustaciones de secuencias han demostrado que el estado oculto de un token especial en modelos de redes neuronales puede encapsular información semántica (Baudiš et al., 2016; Devlin et al., 2018). Además, los LLM contemporáneos suelen utilizar el mecanismo de autoatención causal durante las fases de entrenamiento e inferencia (Touvron et al., 2023a,b), prestando atención a cada token anterior. Esto sugiere que el token final de una secuencia puede ser más adecuado para servir como un punto de compresión de información natural en comparación con otros tokens, ya que no pueden observar tokens futuros. Por lo tanto, un enfoque metódico que identifique y explote los tokens de anclaje de secuencia de una manera confiable y controlable es esencial para comprimir la información de la secuencia, reducir eficazmente los cachés de claves/valores y mejorar la eficiencia de la inferencia para los LLM.
Para este fin, proponemos nuevos modelos de lenguajegrande basados en anclas (AnLLMs), equipados con una innovadora red de autoatención basada en anclas (AnSAN) y una estrategia de inferencia basada en anclas. La AnSAN está diseñada para obligar a los modelos a comprimir la información de la secuencia en el token de ancla (el último token en nuestra implementación) durante el proceso de entrenamiento, con la ayuda de máscaras de atención basadas en anclas. Durante la inferencia, la estrategia de inferencia basada en anclas retiene las cachés de claves/valores de los tokens de anclas, que han agregado toda la información de la secuencia, y descarta las de los tokens que no son de anclas, reduciendo así las demandas de memoria. Específicamente, las máscaras de atención basadas en anclas para AnSAN sirven para dos objetivos: 1) asegurar que los tokens de anclas atiendan exclusivamente a tokens dentro de la misma secuencia, evitando la atención a otras secuencias, y 2) dirigir la atención de los tokens que no son de anclas a anclas de secuencias anteriores, bloqueando los otros tokens que no son de anclas de secuencias anteriores. Cabe destacar que la técnica de atención basada en anclas guarda similitudes con los principios que sustentan la atención dispersa (Child et al., 2019). Sin embargo, a diferencia de la investigación existente que emplea la atención dispersa para extender la longitud del contexto de los LLM (Chen et al., 2023; Ratner et al., 2023), nuestro método se centra en entrenar previamente de forma continua el modelo para comprimir la información de la secuencia en el token de ancla.
Este artículo está bajo la licencia CC BY 4.0 DEED.