Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático

LeanQuant: Un Nuevo Enfoque para la Cuantización de Modelos

LeanQuant mejora el tamaño y la calidad del modelo a través de técnicas avanzadas de cuantización.

― 6 minilectura


LeanQuant revoluciona laLeanQuant revoluciona lacuantización de modelos.manera significativa.modelo mientras reduce el tamaño deLeanQuant mejora el rendimiento del
Tabla de contenidos

Los grandes modelos de lenguaje (LLMs) son herramientas poderosas que se pueden usar en muchos campos, como el derecho, la educación, y más. Sin embargo, estos modelos requieren mucha potencia de computadora y memoria para funcionar correctamente, lo que los hace difíciles de usar para muchas personas. Para facilitar su implementación, un método que puede ayudar se llama Cuantización de pesos. Este método ayuda a reducir tanto el tiempo que toma ejecutar los modelos como el espacio que necesitan en la memoria.

A pesar de sus beneficios, los métodos actuales para cuantizar LLMs tienden a perder calidad cuando los anchos de bit son más bajos. Esto significa que cuando se comprimen demasiado, los modelos pueden no funcionar tan bien. Las técnicas existentes se centran principalmente en mantener intactas las partes importantes de los modelos, pero a menudo no logran mantener la calidad en tamaños más pequeños.

¿Qué es la Cuantización de Pesos?

La cuantización de pesos es un proceso que cambia la forma en que se almacenan los parámetros del modelo. Normalmente, estos parámetros se almacenan en un formato de alta precisión, pero la cuantización reduce esta precisión. En lugar de usar números de punto flotante completos, los parámetros se pueden almacenar como enteros más pequeños. Por ejemplo, un modelo que normalmente necesita alrededor de 140GB de memoria puede reducirse a solo unos 18GB cuando se cuantiza a 2 bits por parámetro. Esto permite ejecutar modelos que son enormes, como LLaMA-2-70b, en dispositivos más comunes, como una sola GPU RTX 4090.

Cuando cuantizamos los pesos, representamos los parámetros originales con el índice de la línea más cercana en una cuadrícula de cuantización. Si bien esto ahorra memoria, puede llevar a una pérdida de calidad si no se hace con cuidado. Algunos enfoques se centran en mantener los pesos cruciales, que son los valores atípicos en los datos, pero aún luchan con los anchos de bit más bajos.

Cuantización Óptima del Cerebro (OBQ)

Un método popular para cuantizar modelos se llama Cuantización Óptima del Cerebro (OBQ). Este método intenta minimizar los errores que ocurren durante la cuantización ajustando los pesos de forma iterativa. OBQ cuantiza los pesos uno por uno y actualiza los otros pesos para compensar el error introducido. Sin embargo, tiene una limitación: utiliza una cuadrícula de cuantización uniforme que no mantiene eficazmente la Calidad del modelo, lo que lleva a errores más grandes.

Nuestro nuevo método, LeanQuant, mejora OBQ. Aprende una cuadrícula de cuantización que es consciente de los errores y pérdidas que pueden ocurrir cuando se cuantizan los pesos. Al centrarse en los pesos más críticos y asegurarse de que no se vean comprometidos, LeanQuant puede mantener intacto el rendimiento del modelo, incluso con anchos de bit más bajos.

La Cuantización de Red Consciente de Pérdidas y Errores (LeanQuant)

LeanQuant está diseñado para crear una cuadrícula de cuantización no uniforme que esté mejor alineada con los pesos cruciales que podrían causar grandes errores si no se manejan correctamente. Para hacer esto, LeanQuant aprende un conjunto de líneas de cuadrícula que ayuda a mantener la calidad del modelo. Usando un método llamado k-means++, LeanQuant crea una cuadrícula de cuantización que aborda las necesidades específicas de cada peso, especialmente aquellos relacionados con errores de pérdida más altos.

El proceso de aprendizaje en LeanQuant es eficiente, requiriendo mucho menos hardware adicional que otros métodos. Por ejemplo, solo tomó 6 horas cuantizar el modelo LLaMA-2-70b usando una sola GPU.

Rendimiento de LeanQuant

LeanQuant ha sido probado contra otros métodos para ver qué tan bien se desempeña. En experimentos que analizaron la calidad de los modelos, LeanQuant mostró mejores resultados que sus competidores cuando se midió a través de diferentes puntuaciones. Por ejemplo, en evaluaciones de perplejidad, que mide qué tan bien el modelo predice texto, LeanQuant tuvo un mejor rendimiento en cuantización de 2 bits en comparación con otros métodos.

Además, en pruebas que analizaron la precisión en varias tareas, LeanQuant también superó otras técnicas por un margen notable, mostrando su efectividad en mantener la calidad mientras reduce el tamaño del modelo.

Eficiencia de Inferencia

Además de mantener alta la calidad del modelo, LeanQuant también ofrece mejoras en la eficiencia de inferencia. Con un enfoque centrado en cómo maneja la cuadrícula de cuantización, LeanQuant asegura cálculos más rápidos durante el uso del modelo. La combinación de cuantización y fusión de núcleos eficiente en la multiplicación de matrices permite que los modelos cuantizados con LeanQuant se ejecuten significativamente más rápido que sus contrapartes no cuantizadas.

Por ejemplo, la versión LeanQuant de LLaMA-2-7b logró impresionantes mejoras de velocidad sobre los modelos no cuantizados, mostrando que no solo es efectiva para preservar la calidad, sino también para acelerar el proceso de inferencia.

Experimentos Realizados

Se realizaron varios experimentos para validar aún más la efectividad de LeanQuant. Estos incluyeron pruebas en modelos de lenguaje de mil millones de parámetros y modelos más pequeños, como BERT. Al comparar la calidad de los modelos cuantizados, LeanQuant mostró constantemente mejores resultados en diferentes conjuntos de datos.

En pruebas utilizando el conjunto de datos WikiText-2 y otros, LeanQuant mantuvo una puntuación de perplejidad más baja, lo que significa que era mejor generando texto. Además, en evaluaciones de precisión de cero disparos, que mide la capacidad del modelo para realizar tareas sin entrenamiento específico previo, LeanQuant lideró el grupo, a menudo mostrando una ventaja significativa sobre otros métodos.

Conclusión

En conclusión, LeanQuant es un enfoque prometedor para cuantizar grandes modelos de lenguaje. Al cambiar el enfoque de las cuadrículas de cuantización uniforme tradicionales a una forma más personalizada de abordar los errores de peso y pérdida, LeanQuant mantiene la calidad de los modelos mientras los hace más pequeños y rápidos. Los resultados de varias pruebas demuestran su efectividad en comparación con métodos competitivos, convirtiéndolo en un avance notable en el campo. A medida que la demanda de IA eficiente continúa creciendo, enfoques como LeanQuant, que equilibran con éxito calidad y rendimiento, serán esenciales.

Fuente original

Título: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid

Resumen: Large language models (LLMs) have shown immense potential across various domains, but their high memory requirements and inference costs remain critical challenges for deployment. Post-training quantization (PTQ) has emerged as a promising technique to reduce memory requirements and decoding latency. However, recent accurate quantization methods often depend on specialized computations or custom data formats to achieve better model quality, which limits their compatibility with popular frameworks, as they require dedicated inference kernels tailored to specific hardware and software platforms, hindering wider adoption. Furthermore, many competitive methods have high resource requirements and computational overhead, making it challenging to scale them to hundreds of billions of parameters. In response to these challenges, we propose LeanQuant (Loss-error-aware Network Quantization), a novel quantization method that is accurate, versatile, and scalable. In the existing popular iterative loss-error-based quantization framework, we identify a critical limitation in prior methods: the min-max affine quantization grid fails to preserve model quality due to outliers in inverse Hessian diagonals. To overcome this fundamental issue, we propose learning loss-error-aware grids, instead of using non-adaptive min-max affine grids. Our approach not only produces quantized models that are more accurate but also generalizes to a wider range of quantization types, including affine and non-uniform quantization, enhancing compatibility with more frameworks. Extensive empirical evaluations on recent LLMs demonstrate that LeanQuant is highly accurate, comparing favorably against recent competitive baselines in model quality, and scalable, achieving very accurate quantization of Llama-3.1 405B, one of the largest open-source LLMs to date, using two Quadro RTX 8000-48GB GPUs in 21 hours.

Autores: Tianyi Zhang, Anshumali Shrivastava

Última actualización: 2024-10-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.10032

Fuente PDF: https://arxiv.org/pdf/2407.10032

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares