Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Inteligencia artificial

Mejorando LLMs en el dispositivo para un mejor rendimiento

Nuevo sistema de inferencia mejora la velocidad y eficiencia de los LLMs en el dispositivo.

― 8 minilectura


Procesamiento de IA másProcesamiento de IA másrápido en el dispositivo.ahorra energía.Nuevo sistema acelera LLMs mientras
Tabla de contenidos

Los modelos de lenguaje grandes (LLMs) que funcionan en el dispositivo están cambiando la forma en que interactuamos con la tecnología, permitiendo aplicaciones como la automatización de tareas en interfaces de usuario y la creación de respuestas personalizadas en correos electrónicos sin comprometer la privacidad del usuario. Sin embargo, ejecutar estos LLMs en Dispositivos Móviles viene con desafíos, principalmente por las velocidades de procesamiento lentas. Este artículo explorará cómo mejorar la velocidad y eficiencia de los LLMs mientras se mantiene segura la información del usuario.

El desafío de la latencia de inferencia

Un obstáculo importante para los LLMs en el dispositivo es su larga latencia de inferencia, especialmente durante la etapa de procesamiento inicial, conocida como prefill. Esta etapa requiere bastante información para generar contenido que se sienta personalizado y preciso, lo cual puede tardar un tiempo inaceptablemente largo en los procesadores móviles comunes.

El contexto largo es esencial para tareas como responder correos electrónicos o automatizar acciones basadas en comandos del usuario, que a menudo requieren procesar cientos o miles de tokens. La lentitud de las CPUs y GPUs móviles actuales limita el rendimiento de los LLMs en aplicaciones del mundo real.

Un nuevo enfoque

Para abordar estos problemas, se ha desarrollado un nuevo sistema de inferencia LLM que utiliza de manera eficiente las Unidades de Procesamiento Neural (NPUs) móviles. Las NPUs son procesadores especializados que sobresalen en manejar tareas específicas como cálculos de aprendizaje profundo, prometiendo así velocidades más rápidas y menor consumo de energía.

Al aplicar un método que combina estrategias de algoritmo y diseño de sistema, este nuevo enfoque aborda las brechas entre las arquitecturas de LLM y las capacidades de las NPUs modernas. Las estrategias clave incluyen reestructurar los prompts y el procesamiento del modelo en tres niveles diferentes.

Estrategias para mejorar

1. Reestructuración de prompts

La primera estrategia implica descomponer prompts de longitud variable en trozos más pequeños y de tamaño fijo. Este método mantiene las relaciones de datos necesarias mientras facilita el manejo del sistema.

2. Optimización de cálculos de tensor

La segunda estrategia se centra en identificar puntos de datos atípicos clave para procesarlos en CPUs o GPUs móviles en lugar de en las NPUs. Esta optimización permite que el sistema agilice cálculos minimizando el procesamiento innecesario.

3. Programación para eficiencia

El tercer enfoque trabaja en programar tareas de procesamiento de una manera que considere las características únicas tanto de la CPU/GPU como de la NPU. Al organizar las tareas en un orden flexible, el sistema puede utilizar mejor los recursos de procesamiento disponibles y reducir los retrasos.

Ahorro de energía

En comparación con los sistemas existentes, este nuevo marco LLM logra una Eficiencia Energética notable. Las investigaciones muestran que puede ahorrar entre un 30% y un 60% en consumo de energía en promedio durante las tareas de inferencia. Al hacer un uso eficiente de las NPUs móviles, el sistema puede realizar cálculos sin hacer que el dispositivo se agote rápidamente.

Aplicaciones en el mundo real

Las aplicaciones prácticas de esta tecnología son amplias e impactantes. Por ejemplo, tareas como traducir comandos de usuario en acciones automatizadas en un dispositivo móvil se vuelven más rápidas y fluidas. De manera similar, en lo que respecta a responder correos electrónicos, los usuarios encontrarán que el proceso es más rápido y eficiente, aliviando las frustraciones comunes asociadas con las comunicaciones móviles.

Comparación de rendimiento

Cuando se pone a prueba en comparación con otros LLMs móviles populares, este nuevo sistema de inferencia supera significativamente a los modelos existentes. En promedio, se ha demostrado que es aproximadamente 22 veces más rápido durante la etapa de prefill, lo que lleva a respuestas más rápidas en escenarios de aplicaciones del mundo real.

Acelerando la automatización

Para tareas automatizadas como la gestión de UI, el nuevo sistema puede gestionar tareas de cinco pasos que anteriormente tomaban casi 40 segundos en solo una fracción de ese tiempo. Esta aceleración significa que los usuarios pueden cumplir sus tareas sin esperar innecesariamente, mejorando su experiencia general con la tecnología móvil.

Abordando contextos largos

Otra ventaja crucial del nuevo sistema es su capacidad para manejar longitudes de contexto más largas de manera más efectiva. Se han desarrollado modelos recientes con soporte para longitudes de contexto de hasta 32,000 tokens. Esta capacidad permite una mejor personalización del usuario y un mejor conocimiento del contexto en las aplicaciones.

El papel de las NPUs móviles

Las NPUs móviles ahora están incluidas en la mayoría de los dispositivos móviles modernos, capaces de ejecutar millones de operaciones por segundo. Estos chips están diseñados para facilitar procesos de aprendizaje profundo, haciéndolos una opción ideal para acelerar tareas de LLM.

A pesar de sus ventajas, los intentos previos de utilizar NPUs para la inferencia de LLM se han encontrado con desafíos. Por ejemplo, adaptarse a los prompts de longitud variable que típicamente se ven en el procesamiento de LLM a menudo no generaba ganancias de velocidad en absoluto.

Innovaciones clave

El nuevo sistema LLM incluye varias características innovadoras que le permiten superar los desafíos asociados con el uso de NPUs para la inferencia de LLM.

Enfoques de compartición de trozos

Una de las innovaciones clave es el uso de gráficos de compartición de trozos. Al descomponer el prompt en trozos de tamaño fijo que pueden ser procesados de manera independiente, el sistema puede reducir el tiempo necesario para preparar y ejecutar estos cálculos mientras mantiene las relaciones de datos necesarias.

Ejecución de activación atípica

Este enfoque implica identificar y manejar datos de activación atípica sin comprometer la eficiencia de las NPUs. Al ejecutar estos cálculos atípicos en la CPU o GPU en paralelo con las operaciones de la NPU, el sistema minimiza retrasos mientras logra una mejor precisión.

Ejecución flexible de subgrafías

Para mejorar aún más la eficiencia, el sistema incorpora un método para ejecutar tareas de procesamiento de manera desordenada. Esta flexibilidad permite que el sistema llene los retrasos causados por diferentes velocidades de procesador, lo que termina llevando a tiempos de respuesta más rápidos.

Evaluación del rendimiento

Para asegurar los beneficios del nuevo sistema LLM, se llevaron a cabo pruebas extensivas bajo diversas condiciones y utilizando varias métricas de referencia. La evaluación confirmó que el nuevo sistema superó consistentemente a las alternativas existentes en todos los indicadores clave, incluyendo velocidad de prefill, eficiencia energética y precisión general.

Implementación en el mundo real

Las implicaciones prácticas de este nuevo marco son significativas. Al integrarse de manera fluida con varios dispositivos móviles, los usuarios pueden beneficiarse de este avanzado sistema LLM sin modificar sus aplicaciones o hardware existentes.

Compatibilidad con marcos existentes

El sistema es compatible con marcos establecidos previamente y puede integrarse fácilmente en aplicaciones existentes. Esta flexibilidad permite a los desarrolladores aprovechar la velocidad y eficiencia mejoradas sin necesidad de rehacer sus sistemas.

Mejora de la experiencia del usuario

Para los usuarios finales, esto significa respuestas más rápidas e interacciones más fluidas con aplicaciones móviles. Ya sea automatizando tareas o generando contenido, los usuarios pueden disfrutar de una experiencia más optimizada que hace que la tecnología móvil sea aún más poderosa y amigable.

Conclusión

El avance de los LLMs en el dispositivo a través de este innovador sistema de inferencia marca un paso significativo en la tecnología móvil. Con mayor velocidad, mejor eficiencia energética y mejor manejo de tareas complejas, los usuarios están listos para disfrutar de una experiencia más gratificante con sus dispositivos móviles. La integración de NPUs móviles en el pipeline de procesamiento de LLM abre nuevas posibilidades para aplicaciones en varios campos, mejorando así tanto la conveniencia personal como la productividad.

Los resultados de las exhaustivas evaluaciones de rendimiento hablan por sí mismos, revelando un sistema que no solo cumple, sino que supera las expectativas, allanando el camino para futuros desarrollos en tecnologías de IA y aprendizaje automático móvil.

Fuente original

Título: Fast On-device LLM Inference with NPUs

Resumen: On-device inference for Large Language Models (LLMs), driven by increasing privacy concerns and advancements of mobile-sized models, has gained significant interest. However, even mobile-sized LLMs (e.g., Gemma-2B) encounter unacceptably high inference latency, often bottlenecked by the prefill stage in tasks like screen UI understanding. We present llm.npu, the first LLM inference system utilizing on-device Neural Processing Unit (NPU) offloading to reduce prefill latency. llm.npu enhances NPU offloading efficiency by re-constructing the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, llm.npu achieves 22.4x faster prefill speed and 30.7$\times$ energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, llm.npu achieves more than 1,000 tokens/sec prefilling for a billion-sized model.

Autores: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu

Última actualización: 2024-12-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.05858

Fuente PDF: https://arxiv.org/pdf/2407.05858

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares