Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Aprendizaje automático

Optimizando la selección de LLM con enrutamiento de benchmarks

Un nuevo enfoque de enrutamiento mejora la selección de modelos de lenguaje grande para tareas específicas.

― 8 minilectura


Enrutamiento LLM paraEnrutamiento LLM paraOptimización de Tareastravés de evaluaciones de referencia.Mejorando la selección de modelos a
Tabla de contenidos

Hoy en día hay muchos Modelos de Lenguaje Grande (LLMs) de código abierto disponibles, junto con conjuntos de datos de referencia para ponerlos a prueba. Aunque algunos modelos son mejores que otros, a menudo no hay un solo modelo que brille en todas las tareas. Esto representa un reto para quienes buscan elegir el mejor modelo para una tarea específica.

En este artículo, vamos a discutir una nueva forma de seleccionar el mejor LLM de un grupo de modelos. En lugar de usar el mismo modelo para cada tarea, podemos crear un modelo "router" que ayude a elegir el LLM con mejor rendimiento para nuevas tareas, basándose en datos de conjuntos de datos de referencia. También mostraremos cómo este método mejora el rendimiento en comparación con usar solo un modelo para todas las tareas.

Antecedentes sobre Modelos de Lenguaje Grande

Los Modelos de Lenguaje Grande han mostrado habilidades impresionantes en varias tareas en el campo del Procesamiento de Lenguaje Natural (NLP). Los investigadores lanzan nuevos LLMs todos los días, con plataformas como Hugging Face albergando miles de modelos. Estos modelos pueden manejar tareas como clasificación de texto, respuestas a preguntas, resumir y generar diálogos.

Dado el rápido crecimiento de los LLM de código abierto, es esencial tener referencias exhaustivas. Estas referencias constan de varios conjuntos de datos que representan diferentes tareas para ayudar a comparar el rendimiento de diferentes LLMs. Algunas colecciones de referencia incluyen HELM, que tiene 42 escenarios, y MMLU, un benchmark de preguntas y respuestas con 57 tareas clasificadas por temas.

Sin embargo, aunque podría haber un LLM que puntúe más alto en promedio en las referencias, probablemente no hay un solo modelo que sea el mejor para cada conjunto de datos específico. Por lo tanto, los usuarios a menudo quieren determinar qué modelo se ajusta mejor a sus necesidades únicas, en lugar de solo mirar el rendimiento promedio en varios conjuntos de datos.

El Desafío de la Selección de Modelos

Cuando intentamos determinar el mejor LLM para una nueva tarea, debemos considerar las fortalezas y debilidades de diferentes modelos. Esto puede significar analizar su rendimiento en conjuntos de datos de referencia. Por ejemplo, si la tarea se trata de responder preguntas de matemáticas, tiene sentido ver cómo se desempeñan los modelos en otros conjuntos de datos relacionados con STEM, en lugar de enfocarse en sus capacidades en áreas totalmente diferentes como la sociología.

Para entender mejor cómo se desempeñan los modelos, podemos recurrir a las evaluaciones realizadas durante las pruebas de referencia. Cada evaluación revela qué tan bien lo hace un modelo en tareas específicas. Usando esta información, podemos entrenar un modelo router que predice qué LLM probablemente funcionará mejor en una nueva tarea.

Aprendiendo de las Evaluaciones de Referencia

Para construir nuestro método de enrutamiento, comenzamos analizando las varias entradas utilizadas en las referencias. Cada entrada tiene una respuesta correcta correspondiente descrita en una métrica que evalúa qué tan bien coincide la respuesta del modelo con la respuesta ideal. Las respuestas del modelo durante la evaluación nos permiten recopilar Métricas de Rendimiento, que luego pueden usarse para crear un modelo de aprendizaje supervisado.

Nuestro objetivo es aprender a predecir el rendimiento de diferentes LLMs en nuevas tareas basándonos en su rendimiento pasado. Al entrenar un modelo para evaluar la corrección de la respuesta de cada LLM a varias entradas, podemos agilizar el proceso de selección para nuevas tareas.

El Rol de los Predictores de Corrección

En nuestro marco, se utiliza un predictor de corrección para evaluar qué tan bien responde un modelo a entradas específicas. El predictor toma input basado en evaluaciones previas de los modelos durante las pruebas de referencia. Si un modelo genera una respuesta correcta, se marca como un éxito; de lo contrario, se marca como un fallo.

Entrenar el predictor de corrección implica usar datos históricos de evaluaciones de referencia. Clasificamos estos datos como respuestas correctas o incorrectas y empleamos un método de clasificación estándar para aprender a predecir la corrección.

Una vez entrenado, este predictor es capaz de evaluar las entradas de una nueva tarea y predecir si el LLM candidato producirá la salida deseada.

Superando las Limitaciones de la Selección de Modelos Tradicional

Los enfoques tradicionales de selección de modelos suelen depender de estimar el error del modelo cuando se prueba con el mismo tipo de datos utilizados durante el entrenamiento. Sin embargo, este método es menos efectivo para LLMs, ya que generalmente se entrenan con enormes conjuntos de datos sin una estructura específica para tareas posteriores como clasificación o preguntas y respuestas.

Al seleccionar modelos basados en datos fuera de distribución, necesitamos métodos que tengan en cuenta las diferencias entre los datos de entrenamiento y las tareas reales. Los enfoques actuales a menudo requieren entrenar múltiples modelos o recopilar datos que podrían no estar fácilmente disponibles.

Nuestro método ofrece una forma de evitar los altos costos asociados con las prácticas tradicionales. Al entrenar un predictor de corrección a partir de datos de referencia, podemos obtener un modelo router que simplemente requiere estimaciones de rendimiento del LLM elegido durante la ejecución, sin generaciones adicionales.

Las Ventajas de Aprender de las Referencias

Nuestro enfoque propuesto ofrece una técnica para el enrutamiento de LLM que aprovecha las evaluaciones de referencia. Al analizar sistemáticamente las salidas de diferentes modelos a través de tareas, podemos identificar qué modelos tienen más probabilidades de tener éxito para cualquier nueva tarea dada.

El proceso de aprendizaje a partir de referencias significa que podemos entrenar un modelo que predice el rendimiento de diferentes LLMs candidatos basándose únicamente en datos históricos de tareas. Este enfoque basado en datos nos permite evitar cálculos innecesarios al seleccionar el mejor LLM para una nueva tarea.

Probando el Enfoque de Enrutamiento del Modelo

Para validar nuestro enfoque de enrutamiento de modelos, llevamos a cabo una serie de experimentos utilizando conjuntos de datos de referencia. Seleccionamos una variedad de escenarios, como preguntas y respuestas y clasificación de texto, para evaluar la efectividad de nuestros predictores de corrección.

Cada experimento implica entrenar los routers del modelo usando datos de la mayoría de los escenarios disponibles, mientras que reservamos un escenario para pruebas. Al iterar a través de estos experimentos, podemos analizar qué tan bien funcionan los routers de modelos en seleccionar el mejor modelo para las tareas específicas.

Los resultados de estas pruebas mostraron una mejora constante en el rendimiento al comparar los modelos seleccionados con los modelos de mejor rendimiento en promedio a través de los escenarios. Esto indica que podemos lograr mejores resultados al emplear nuestra estrategia de enrutamiento de modelos.

Explorando Consideraciones Adicionales

Si bien las ganancias de rendimiento del enrutamiento de modelos son notables, hay otras consideraciones que pueden influir en los resultados. Por ejemplo, la precisión de los predictores de corrección juega un papel vital; incluso un pequeño aumento en su capacidad para generalizar puede llevar a mejoras sustanciales en la selección de modelos.

La investigación también indica que aprovechar modelos más pequeños donde sea aplicable puede proporcionar resultados similares a modelos más grandes, mientras reduce significativamente los costos de ejecución. Esto significa que predecir LLMs más pequeños adecuados no solo ofrece una forma de ahorrar recursos, sino que también podría ampliar el rango de tareas que los profesionales se sienten seguros de automatizar.

La Importancia de la Escasez de Referencias

Una menor escasez de datos de referencia puede mejorar el rendimiento de los sistemas de enrutamiento de modelos. Si una nueva tarea se parece mucho a tareas existentes en las referencias, el proceso de enrutamiento puede dar mejores resultados. En consecuencia, aumentar la diversidad de los conjuntos de datos de referencia contribuye a la eficacia general de los modelos de enrutamiento.

Nuestras ideas sobre la escasez de referencias sugieren que usar referencias exhaustivas puede minimizar las discrepancias potenciales. Un conjunto robusto de referencias proporcionará una comprensión más completa del rendimiento del modelo en diversas tareas.

Conclusión

En resumen, seleccionar el LLM óptimo para tareas específicas puede ser un desafío dado los muchos modelos disponibles y sus variadas capacidades. Nuestro enfoque de enrutamiento de LLM basado en evaluaciones de referencia presenta una forma estructurada de identificar los mejores modelos, teniendo en cuenta sus fortalezas y debilidades.

Este método no solo agiliza el proceso de selección de modelos, sino que también reduce la carga computacional, especialmente al aprovechar modelos más pequeños. Al utilizar predictores de corrección entrenados a partir de datos de referencia, podemos ofrecer soluciones prácticas para ayudar a los profesionales a tomar decisiones informadas sobre LLMs.

A medida que el panorama del NLP continúa evolucionando, aprender de las referencias se destaca como un enfoque valioso que puede mejorar el enrutamiento de modelos, ofrecer información sobre el rendimiento de los LLM y, en última instancia, ampliar las capacidades de los modelos de lenguaje en aplicaciones del mundo real.

Más de autores

Artículos similares