Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación distribuida, paralela y en clústeres# Aprendizaje automático

Mejorando la experiencia del usuario en el streaming de texto con IA

Un nuevo sistema mejora la experiencia del usuario ajustando la entrega de tokens en tiempo real.

― 6 minilectura


Renovación del StreamingRenovación del Streamingde Texto AIIA.interacción del usuario en sistemas deUn enfoque más inteligente para la
Tabla de contenidos

Los modelos de lenguaje grandes han cambiado la forma en que interactuamos con servicios basados en texto. Desde chatbots hasta traducción de idiomas, estos modelos pueden generar respuestas escritas o habladas al instante. Sin embargo, muchos sistemas existentes se enfocan principalmente en qué tan rápido puede un servidor generar estas respuestas, a menudo ignorando cómo los usuarios individuales experimentan el servicio. Esto puede llevar a situaciones donde algunos usuarios reciben respuestas lentas o una experiencia general pobre, especialmente cuando muchos usuarios intentan acceder al servicio al mismo tiempo.

Definiendo la Experiencia del usuario

La experiencia del usuario, a menudo llamada Calidad de Experiencia (QoE), es crucial para cualquier servicio interactivo. Considera cómo los usuarios interactúan con un servicio a lo largo del tiempo, especialmente cuando reciben información. En los servicios de transmisión de texto, las respuestas se entregan token por token, lo que significa que cada token es una pequeña parte de la respuesta total. Así que, una buena experiencia de usuario depende no solo de qué tan rápido el servidor genera estos tokens, sino también de qué tan rápido los usuarios pueden leerlos o escucharlos.

Para medir la QoE, podemos mirar dos factores principales:

  1. Tiempo para el Primer Token (TTFT): Este es el tiempo que un usuario tiene que esperar por la primera pieza de información. Idealmente, los usuarios quieren que esto sea lo más corto posible.
  2. Velocidad de Entrega de Tokens (TDS): Esta es la rapidez con la que se entregan los tokens después del primero. Un buen servicio entrega tokens a una velocidad que coincide con qué tan rápido los usuarios pueden leerlos o digerirlos.

El Problema con los Sistemas Actuales

La mayoría de los sistemas de transmisión de texto AI actuales priorizan métricas generales de rendimiento del servidor, como cuántos tokens se pueden generar en un marco de tiempo dado. Usan un sistema de programación que trata todas las solicitudes por igual, lo que significa que algunos usuarios pueden terminar esperando mucho tiempo mientras otros reciben tokens demasiado rápido para manejarlos. Esta falta de flexibilidad resulta en un uso ineficiente de recursos y en una mala experiencia para los usuarios.

Bajo alta demanda de usuarios, algunos pueden experimentar retrasos en la recepción de sus tokens, mientras que otros pueden recibir sus respuestas antes de tener la oportunidad de leerlas. Esto crea una situación extraña donde algunos usuarios se sienten descuidados o abrumados.

La Necesidad de una Mejor Programación

Para mejorar la experiencia del usuario, los servicios de transmisión de texto AI necesitan una forma más inteligente de gestionar cómo se generan y entregan los tokens. Un sistema que entienda y responda a las necesidades únicas de cada usuario puede mejorar significativamente su experiencia. Esto se puede hacer priorizando ciertas solicitudes, ajustando las velocidades de entrega y asegurando que los usuarios reciban su primer token lo más rápido posible.

Diseñando un Nuevo Sistema

El objetivo es crear un sistema que monitoree las expectativas del usuario y ajuste la entrega en consecuencia. Esto implica varios componentes clave:

  1. Definir QoE: El sistema necesita establecer una definición clara de QoE que refleje las experiencias de los usuarios a lo largo de toda la interacción, considerando tanto TTFT como TDS.
  2. Programación Dinámica: En lugar de un enfoque de "talla única", el sistema debería asignar recursos dinámicamente basado en la urgencia y las necesidades del usuario. Esto significa priorizar solicitudes que puedan tardar más y ajustar la velocidad de entrega en consecuencia.
  3. Buffering de Tokens: Al usar un buffer para mantener los tokens excedentes, el sistema puede liberar tokens a los usuarios a un ritmo que pueden manejar, suavizando así los tiempos de entrega y mejorando la experiencia general.

Cómo Funciona el Nuevo Sistema

Cuando un usuario envía una solicitud de información, el nuevo sistema toma los siguientes pasos:

  • Estableciendo Prioridades: A cada solicitud se le da una prioridad basada en su TTFT y TDS esperados. Las solicitudes que necesitan entrega más rápida son priorizadas.
  • Asignación Dinámica de Recursos: Los recursos se asignan de manera dinámica, asegurando que las solicitudes más urgentes reciban la atención que necesitan. Esto significa que las solicitudes menos urgentes pueden ser pausadas temporalmente para enfocarse en las que requieren respuestas inmediatas.
  • Gestión de Entrega de Tokens: A medida que se generan tokens, se almacenan en un buffer. Este buffer controla el ritmo al que se entregan los tokens al usuario, sincronizándolo con su velocidad de lectura esperada.

Evaluando el Nuevo Sistema

Para ver qué tan bien funciona el nuevo sistema, se realizan pruebas utilizando varios modelos y escenarios de usuarios. Los principales objetivos son:

  1. Mejorar la QoE Promedio: El nuevo sistema debería aumentar significativamente las puntuaciones promedio de QoE a través de diferentes solicitudes de usuarios.
  2. Manejar Altas Tasas de Solicitud: Debería gestionar un mayor número de solicitudes sin comprometer la experiencia del usuario. El sistema debería poder atender a más usuarios simultáneamente sin necesidad de recursos adicionales.
  3. Mantener el Rendimiento: La velocidad general de generación de tokens debería mantenerse estable, asegurando que el sistema continúe produciendo respuestas de manera eficiente.

Resultados de las Pruebas

El nuevo sistema muestra resultados prometedores en varias pruebas. Mejora consistentemente la QoE promedio, especialmente bajo cargas pesadas de usuarios. En lugar de sacrificar la experiencia de un usuario por la de otro, el sistema equilibra efectivamente las necesidades de cada usuario.

  • Satisfacción del Usuario: Los usuarios reportan una mejor experiencia general, con un TTFT más rápido y una TDS más cómoda que coincide con su capacidad de lectura.
  • Eficiencia de Recursos: El sistema puede manejar más solicitudes a la vez sin necesidad de recursos adicionales, lo que reduce los costos operativos.
  • Estabilidad del Rendimiento: Incluso con muchos usuarios, el sistema mantiene la velocidad de generación de tokens consistente, asegurando que no se ralentice cuando se enfrenta a un aumento en la demanda.

Conclusión

En conclusión, el nuevo sistema de transmisión de texto AI ofrece una mejora significativa sobre los métodos tradicionales. Al enfocarse en las experiencias individuales de los usuarios y ajustar dinámicamente la Asignación de Recursos, mejora la calidad general de los servicios interactivos. Este enfoque muestra promesa para aplicaciones futuras, allanando el camino para sistemas más eficientes y amigables con los usuarios en el ámbito de las interacciones de texto generadas por IA.

A medida que la demanda de respuestas más interactivas e inmediatas continúa creciendo, sistemas como este serán esenciales para proporcionar experiencias de usuario sin interrupciones y satisfactorias.

Fuente original

Título: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services

Resumen: Large language models (LLMs) are now at the core of conversational AI services such as real-time translation and chatbots, which provide live user interaction by incrementally streaming text to the user. However, existing LLM serving systems fail to provide good user experience because their optimization metrics are not always aligned with user experience. In this paper, we first introduce and define the notion of Quality-of-Experience (QoE) for text streaming services by considering each user's end-to-end interaction timeline. Based on this, we propose Andes, a QoE-aware LLM serving system that enhances user experience by ensuring that users receive the first token promptly and subsequent tokens at a smooth, digestible pace, even during surge periods. This is enabled by Andes's preemptive request scheduler that dynamically prioritizes requests at the token granularity based on each request's expected QoE gain and GPU resource usage. Our evaluations demonstrate that, compared to state-of-the-art LLM serving systems, Andes improves the average QoE by up to $4.7\times$ given the same GPU resource, or saves up to 61% GPU resources while maintaining the same high QoE.

Autores: Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury

Última actualización: 2024-12-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2404.16283

Fuente PDF: https://arxiv.org/pdf/2404.16283

Licencia: https://creativecommons.org/publicdomain/zero/1.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares