Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático

Nuevo sistema para ejecutar modelos de lenguaje grandes en smartphones

Un sistema innovador permite operaciones rápidas de LLM en smartphones, mejorando la privacidad del usuario.

― 6 minilectura


Los smartphonesLos smartphonestransforman elrendimiento de los LLM.los modelos de lenguaje en smartphones.Nuevo sistema acelera la velocidad de
Tabla de contenidos

Este artículo habla sobre un nuevo sistema diseñado para ejecutar modelos de lenguaje grandes (LLMs) rápidamente en smartphones. Estos modelos pueden ser muy grandes, a menudo más grandes que la memoria disponible en un teléfono. El sistema usa de manera inteligente diferentes tipos de recursos informáticos que tiene el teléfono para manejar las demandas del modelo.

Características Clave del Sistema

El sistema incluye varias características importantes. Divide cálculos complejos en partes más pequeñas, lo que le permite usar los variados recursos de computación del teléfono de manera más efectiva. Tiene un motor especial que adapta su funcionamiento según el modelo que se esté usando. Además, guarda datos usados frecuentemente en caché para acelerar operaciones y minimizar los retrasos causados por la lectura de la memoria o el almacenamiento.

Con este diseño, el sistema soporta una amplia gama de modelos de lenguaje en diferentes smartphones. Puede funcionar hasta 29.2 veces más rápido que otros sistemas líderes disponibles actualmente. Notablemente, este es el primer sistema capaz de ejecutar un modelo llamado TurboSparse-Mixtral-47B en un smartphone, permitiéndole generar texto a una velocidad de 11.68 tokens por segundo.

El Auge de los Modelos de Lenguaje Grandes

Los modelos de lenguaje grandes han cambiado cómo interactuamos con la tecnología. Estos modelos pueden entender y generar texto similar al humano, lo que los hace útiles para muchas tareas. Sin embargo, los modelos más sofisticados necesitan computadoras potentes en centros de datos, donde hay unidades de procesamiento gráfico (GPUs) avanzadas y mucha memoria.

A medida que los smartphones se vuelven más capaces, los investigadores buscan formas de ejecutar estos modelos directamente en los teléfonos. Hacer esto permitiría que el teléfono actúe como un asistente inteligente, usando datos personales sin necesidad de enviarlos a la nube, lo que ayuda a proteger la privacidad del usuario.

Desafíos de Ejecutar LLMs en Smartphones

A pesar de sus ventajas, los smartphones enfrentan grandes desafíos al ejecutar LLMs. Normalmente tienen menos Potencia de procesamiento y memoria en comparación con computadoras de gama alta. Los intentos de usar modelos más pequeños a menudo llevan a sacrificar rendimiento. Por ejemplo, el modelo Gemini Nano de Google se reduce para encajar en la memoria de un teléfono, pero no rinde tanto como los modelos más grandes.

Hay otros métodos que ayudan a reducir las necesidades de memoria y computación de los LLMs. Un enfoque está diseñado para computadoras personales, pero se enfrenta a las limitaciones de hardware en smartphones. Debido a que el almacenamiento móvil es más lento y menos eficiente, a menudo se convierte en un cuello de botella cuando el sistema necesita leer datos, causando retrasos en el procesamiento.

Presentando el Nuevo Sistema

El nuevo sistema está diseñado para ejecutar modelos grandes en smartphones incluso cuando superan los límites de memoria. Está construido sobre trabajos anteriores que se enfocaron en usar eficientemente los recursos limitados. Al reconocer que no todas las partes de un modelo grande necesitan estar activas al mismo tiempo, el sistema puede trabajar solo con un grupo seleccionado de neuronas, que son los bloques de construcción del modelo.

La capacidad del sistema para adaptarse al hardware único de los smartphones significa que puede optimizar la velocidad de generación de respuestas. Logra esto utilizando diferentes estrategias de procesamiento, dependiendo de lo que esté haciendo en ese momento, ya sea preparándose para procesar o generando respuestas.

Soluciones de Memoria y Almacenamiento

Uno de los grandes desafíos es la memoria limitada disponible en los smartphones. Para lidiar con esto, el sistema utiliza la memoria de manera efectiva mediante el almacenamiento en caché de datos usados frecuentemente. También introduce una técnica que permite un mejor equilibrio entre leer datos de la memoria y realizar cálculos. Esto significa que puede minimizar la cantidad de tiempo que se pasa esperando a que los datos se carguen, acelerando así el proceso total.

La forma en que funciona el sistema implica estrategias de lectura y procesamiento cuidadosamente planificadas que consideran cómo interactúan la memoria y el almacenamiento del smartphone. Esta planificación ocurre automáticamente cuando se ejecuta un nuevo modelo por primera vez en un smartphone. Al analizar tanto el modelo como las capacidades de hardware, el sistema puede crear un plan detallado que optimiza el rendimiento.

Cómo Funciona el Nuevo Sistema

El nuevo marco maneja dos pasos clave: llenado previo y decodificación. Durante la fase de llenado previo, se procesa toda la entrada a la vez, mientras que la etapa de decodificación genera un token a la vez basado en el anterior. Cada etapa tiene sus propias necesidades computacionales, y el sistema optimiza cada una individualmente.

En la fase de llenado previo, el sistema utiliza todas las capacidades de las unidades de procesamiento del smartphone, y esta fase puede manejar lotes más grandes de datos de manera eficiente. En contraste, la fase de decodificación se enfoca en procesar menores cantidades de datos rápidamente, lo que le permite aprovechar la arquitectura del smartphone de una manera más equilibrada.

Evaluación del Rendimiento

El sistema fue probado en dos modelos de smartphones, OnePlus 12 y Ace 2, que cuentan con diferentes capacidades de procesamiento. Soporta una variedad de LLMs, incluyendo tamaños que van desde 7 mil millones hasta 47 mil millones de parámetros. Los resultados muestran un aumento promedio en el rendimiento, lo que indica que puede operar de manera efectiva en hardware móvil.

En particular, cuando ambos smartphones tenían suficiente memoria, el sistema redujo significativamente la cantidad de memoria necesaria mientras aún proporcionaba velocidades de inferencia rápidas. Por ejemplo, al manejar modelos más pequeños, logró casi un 40% de reducción en el uso de memoria, mientras se mantenía al nivel de rendimiento encontrado en otros sistemas competitivos.

Rendimiento en Tareas del Mundo Real

El rendimiento del sistema también fue probado en tareas del mundo real como diálogos de múltiples turnos, generación de código y resolución de problemas matemáticos. Consistentemente mostró velocidades de decodificación robustas en estas tareas. Incluso cuando la memoria era limitada, rindió mejor que otros sistemas, demostrando su efectividad en el manejo de aplicaciones prácticas.

Conclusión

Este nuevo marco representa un gran avance en la capacidad de ejecutar modelos de lenguaje grandes en smartphones. Al adaptarse a las características únicas del hardware móvil y gestionar inteligentemente los cálculos y el almacenamiento de datos, puede ofrecer un rendimiento impresionante mientras respeta las limitaciones del dispositivo. A medida que continúa evolucionando, el sistema promete desbloquear capacidades aún mayores para los dispositivos personales en la comprensión y generación de texto similar al humano, allanando el camino para una experiencia móvil más inteligente y receptiva.

Fuente original

Título: PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Resumen: Large language models (LLMs) on smartphones enable real-time AI assistance and privacy-preserving, offline operation. However, resource constraints of smartphones limit current deployments to small language models (SLMs), significantly compromising their capabilities. This paper introduces PowerInfer-2, a smartphone-based framework that enables fast inference for LLMs exceeding the memory capacity. The key insight is decomposing matrix operations into neuron clusters as the basic processing unit, which enables flexible scheduling and efficient I/O-computation pipelining. PowerInfer-2 leverages this neuron-cluster-based design in both computation and storage. For computation, neuron clusters with dense activations are processed on NPU, while sparse clusters use CPU. The storage engine provides a fine-grained pipeline mechanism that coordinates cluster-level computation and I/O operations, enhanced by a segmented neuron cache to reduce I/O activities. PowerInfer-2 achieves up to a 27.8x speed increase compared to state-of-the-art frameworks. PowerInfer-2 is the first system to serve a 47B LLM on a smartphone, achieving 11.68 tokens/s. Notably, these performance improvements preserve model quality with negligible accuracy degradation.

Autores: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen

Última actualización: 2024-12-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.06282

Fuente PDF: https://arxiv.org/pdf/2406.06282

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares