Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Aprendizaje automático

AttentionStore: Transformando Conversaciones de Varios Giros

AttentionStore mejora la eficiencia en las conversaciones de modelos de lenguaje al reutilizar cachés pasados.

― 7 minilectura


AttentionStore OptimizaAttentionStore OptimizaConversaciones LLMcostos en modelos de lenguaje.Mejorando la eficiencia y reduciendo
Tabla de contenidos

Los modelos de lenguaje grandes (LLMs) se han convertido en una herramienta importante para tener conversaciones interactivas con humanos. Estos modelos pueden manejar múltiples turnos en las conversaciones, lo que permite una experiencia más atractiva. Sin embargo, los sistemas que se usan actualmente para manejar estas conversaciones no son muy eficientes. Tienen que procesar y calcular repetidamente información de tokens pasados, lo que increase costos y ralentiza el rendimiento.

Para resolver estos problemas, se presenta un nuevo enfoque llamado AttentionStore. Este método innovador permite reutilizar cachés de clave-valor pasados a través de diferentes turnos de la conversación. Al hacer esto, AttentionStore reduce la necesidad de cálculos repetidos, ahorrando tiempo y recursos.

El Problema de las Conversaciones de Varios Turnos

Las conversaciones de varios turnos son esenciales para que los LLMs comprendan mejor el contexto y la intención del usuario. Aproximadamente el 73% de las conversaciones implican varios turnos, lo que resalta la importancia de esta función. Sin embargo, los sistemas existentes descartan cachés pasados cuando una conversación está inactiva. Esto significa que cuando la conversación se reanuda, el sistema tiene que recalcular todo de nuevo, lo cual es ineficiente y costoso.

Los cálculos repetitivos para almacenar pares de clave-valor resultan en una carga significativa, especialmente a medida que aumenta el número de turnos de conversación. Esto es un desperdicio de valiosos recursos computacionales y conduce a retrasos en los tiempos de respuesta.

La Solución: AttentionStore

El método AttentionStore aborda las ineficiencias asociadas con las conversaciones de varios turnos. En lugar de descartar cachés de clave-valor, las guarda en un sistema de caché dedicado. Cuando la misma sesión de conversación se reanuda, estas cachés se pueden acceder rápidamente y reutilizar, lo que elimina la necesidad de cálculos repetitivos.

Características Clave de AttentionStore

  1. Sistema de Caché Jerárquico: AttentionStore organiza sus cachés de manera jerárquica, usando diferentes tipos de almacenamiento para ahorrar espacio y mejorar las velocidades de acceso.

  2. Carga por Capas: Para minimizar los tiempos de acceso lentos, AttentionStore carga cachés de clave-valor capa por capa mientras las computaciones están en curso. Esto ayuda a solapar el tiempo gastado en cargar y computar.

  3. Guardado Asincrónico: AttentionStore permite que el guardado de cachés de clave-valor ocurra simultáneamente con las computaciones que se están realizando. Esto evita retrasos causados por esperar a que se guarden las cachés antes de pasar a otras tareas.

  4. Gestión Consciente del Programador: El sistema usa información del programador de trabajos para determinar qué cachés de clave-valor probablemente se necesitarán pronto, mejorando así la eficiencia al buscar y desalojar cachés.

  5. Desacoplamiento de la Codificación Posicional: Para mantener la validez de las cachés de clave-valor guardadas, la codificación posicional se separa de las cachés. Esto permite actualizaciones y modificaciones fáciles a medida que cambia el contexto de la conversación.

Mejoras en Eficiencia

Los experimentos muestran que AttentionStore puede mejorar significativamente el Tiempo hasta el primer token (TTFT), que es el tiempo que tarda el modelo en empezar a producir salida después de recibir una entrada. En varias pruebas, el TTFT se redujo hasta en un 87%, mientras que el rendimiento para la pre-carga de entradas mejoró hasta 7.8 veces.

Para secuencias más largas, los beneficios son aún más pronunciados. El TTFT se redujo hasta en un 95%, y el rendimiento de pre-carga mejoró 22 veces. Esto demuestra el potencial de los mecanismos de atención para optimizar el procesamiento en tareas complejas.

Reducción de Costos

El aspecto financiero de usar LLMs es crítico, especialmente porque normalmente requieren numerosas GPUs para funcionar. En los experimentos usando AttentionStore, el costo total de inferencia se redujo hasta en un 70%. Esto es un ahorro significativo que puede llevar a una mayor adopción de estas tecnologías en diversas aplicaciones.

Desafíos en la Implementación de AttentionStore

Aunque AttentionStore ofrece muchos beneficios, hay desafíos en diseñar un sistema de caché eficiente:

  1. Sobrecarga de Acceso: Transferir datos entre memoria de alta velocidad y almacenamiento más lento puede crear cuellos de botella. AttentionStore trabaja para mitigar esto asegurando que las cachés sean fácilmente accesibles.

  2. Espacio de Almacenamiento: Las cachés de clave-valor pueden consumir rápidamente grandes cantidades de almacenamiento. Para evitar agotar la memoria limitada, AttentionStore distribuye las cachés en múltiples tipos de almacenamiento, incluyendo opciones más lentas pero más espaciosas como los discos.

  3. Gestión de Cachés: Como las solicitudes de conversación pueden llegar inesperadamente, es esencial que AttentionStore gestione la colocación de cachés de manera eficiente para asegurar un acceso rápido.

  4. Limitaciones de Contexto: A medida que las conversaciones se alargan, pueden exceder el máximo de ventana de contexto de los LLMs. AttentionStore ha desarrollado métodos para manejar esto gestionando y truncando tokens históricos de manera efectiva.

Descripción Técnica

Arquitectura Transformer

La base de muchos LLMs modernos es la arquitectura transformer. Este diseño permite que el modelo procese tokens de entrada y genere respuestas basadas en el contexto previo. Dentro de este sistema, las cachés de clave-valor son cruciales para retener información de tokens pasados para ayudar en la generación de nuevos tokens.

Cada vez que se genera un nuevo token, se crean y almacenan pares de clave-valor en memoria. Sin embargo, cuando aumentan los turnos de conversación, la necesidad de recalcular estas cachés conduce a una sobrecarga y a ineficiencias que AttentionStore busca resolver.

Inferencia Generativa

Cuando un usuario ingresa un aviso, el modelo pasa por dos fases principales: pre-carga y decodificación.

  1. Fase de Pre-carga: Esta fase prepara las cachés de clave-valor basándose en la entrada del usuario, generando rápidamente los datos necesarios. El tiempo tomado en esta fase está estrechamente relacionado con la longitud de la entrada.

  2. Fase de Decodificación: Esta fase procesa un token a la vez, convirtiéndola en un proceso más lento. La dependencia de los tokens previos puede crear retrasos, especialmente en interacciones más largas.

Resultados Experimentales

Tasa de Éxito de Caché

En experimentos extensos, AttentionStore logró altas tasas de éxito de caché para varios modelos. Por ejemplo, mantuvo tasas de éxito de alrededor del 86% para LLaMA-13B y del 90% para Falcon-40B. Estas tasas indican que la mayoría de los accesos a caché fueron exitosos y no requirieron cálculos adicionales.

Tiempo hasta el Primer Token

Una de las métricas clave para el rendimiento es el tiempo que se tarda en producir el primer token después de recibir la entrada. AttentionStore redujo significativamente este tiempo en varios modelos en comparación con métodos tradicionales. Los resultados resaltaron mejoras para LLaMA-13B, LLaMA-65B y otros.

Rendimiento de Pre-carga

El rendimiento mide qué tan rápido procesa el modelo las entradas. AttentionStore demostró un rendimiento notable en esta área, mostrando mejoras significativas en la velocidad gracias a la reducción de cálculos en las fases de pre-carga.

Costo de Inferencia

Usar AttentionStore resultó en ahorros de costos para el sistema en general, reduciendo drásticamente la necesidad de tiempo y recursos de GPU. Esto es particularmente relevante para aplicaciones que requieren un rendimiento en tiempo real.

Conclusión

En resumen, AttentionStore ofrece un enfoque prometedor para mejorar la eficiencia y la relación costo-efectividad de las conversaciones de varios turnos en los modelos de lenguaje grandes. Al reutilizar cachés de clave-valor e implementar técnicas innovadoras para la gestión de cachés, logra optimizar significativamente el rendimiento. Los avances presentados a través de AttentionStore allanan el camino para implementaciones más escalables y rentables de LLMs en diversas industrias y aplicaciones. El potencial para manejar secuencias más largas y conversaciones complejas abre nuevas oportunidades para interacciones más ricas entre humanos y máquinas.

Fuente original

Título: Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention

Resumen: Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes CachedAttention, a new attention mechanism that enables reuse of KV caches across multi-turn conversations, significantly reducing the repetitive computation overheads. CachedAttention maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, CachedAttention employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, CachedAttention employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, CachedAttention enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that CachedAttention significantly decreases the time to the first token (TTFT) by up to 87%, improves the prompt prefilling throughput by up to 7.8$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 70%.

Autores: Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo

Última actualización: 2024-06-30 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.19708

Fuente PDF: https://arxiv.org/pdf/2403.19708

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares