Migliorare l'esperienza utente nello streaming di testo con l'AI
Un nuovo sistema migliora l'esperienza utente regolando la consegna dei token in tempo reale.
― 6 leggere min
Indice
I modelli di linguaggio di grandi dimensioni hanno cambiato il modo in cui interagiamo con i servizi basati su testo. Dai chatbot alla traduzione linguistica, questi modelli possono generare risposte scritte o parlate all'istante. Tuttavia, molti dei sistemi attuali si concentrano principalmente su quanto velocemente un server può generare queste risposte, spesso ignorando come gli utenti individuali vivono il servizio. Questo può portare a situazioni in cui alcuni utenti ricevono risposte lente o un’esperienza complessiva scadente, soprattutto quando molti utenti stanno cercando di accedere al servizio contemporaneamente.
Definire l'Esperienza dell'Utente
L'esperienza dell'utente, spesso chiamata Qualità dell'Esperienza (QoE), è fondamentale per qualsiasi servizio interattivo. Tiene conto di come gli utenti interagiscono con un servizio nel tempo, specialmente quando ricevono informazioni. Nei servizi di streaming di testo, le risposte vengono fornite un token alla volta, il che significa che ogni token è un piccolo pezzo della risposta totale. Quindi, una buona Esperienza Utente dipende non solo da quanto velocemente il server genera questi token, ma anche da quanto velocemente gli utenti possono leggerli o ascoltarli.
Per misurare la QoE, possiamo considerare due fattori principali:
- Tempo al Primo Token (TTFT): Questo è il tempo che un utente deve aspettare per il primo pezzo di informazione. Idealmente, gli utenti vogliono che questo sia il più breve possibile.
- Velocità di Consegna dei Token (TDS): Questa è la velocità con cui i token vengono consegnati dopo il primo. Un buon servizio consegna i token a una velocità che corrisponde a quanto velocemente gli utenti possono leggerli o assimilarli.
Il Problema con i Sistemi Attuali
La maggior parte dei sistemi di streaming di testo AI attuali dà priorità a metriche di prestazione generali del server, come il numero di token che possono essere generati in un determinato intervallo di tempo. Usano un sistema di programmazione che tratta tutte le richieste allo stesso modo, il che significa che alcuni utenti potrebbero finire per aspettare a lungo mentre altri ricevono token troppo velocemente da gestire. Questa mancanza di flessibilità porta a risorse sprecate e a un’esperienza scadente per gli utenti.
Sotto alta domanda da parte degli utenti, alcuni possono sperimentare ritardi nella ricezione dei loro token, mentre altri potrebbero ricevere le loro risposte prima di avere la possibilità di leggerle. Questo crea una situazione strana in cui alcuni utenti si sentono trascurati o sopraffatti.
La Necessità di una Migliore Programmazione
Per migliorare l'esperienza degli utenti, i servizi di streaming di testo AI hanno bisogno di un modo più intelligente per gestire come i token vengono generati e consegnati. Un sistema che comprende e risponde alle esigenze uniche di ogni utente può migliorare significativamente la loro esperienza. Questo può essere fatto dando priorità a determinate richieste, regolando le velocità di consegna e assicurando che gli utenti ricevano il loro primo token il più rapidamente possibile.
Progettare un Nuovo Sistema
L'obiettivo è creare un sistema che monitora le aspettative degli utenti e regola la consegna di conseguenza. Questo coinvolge diversi componenti chiave:
- Definire la QoE: Il sistema deve stabilire una chiara definizione di QoE che rifletta le esperienze degli utenti durante l'intera interazione, considerando sia il TTFT che il TDS.
- Programmazione Dinamica: Invece di un approccio taglia unica, il sistema dovrebbe allocare dinamicamente le risorse in base all'urgenza e alle esigenze degli utenti. Questo significa dare priorità alle richieste che potrebbero richiedere più tempo e regolare la velocità di consegna di conseguenza.
- Buffering dei Token: Utilizzando un buffer per trattenere i token in eccesso, il sistema può rilasciare i token agli utenti a un ritmo che possono gestire, smussando così i tempi di consegna e migliorando l'esperienza complessiva.
Come Funziona il Nuovo Sistema
Quando un utente invia una richiesta di informazioni, il nuovo sistema segue questi passaggi:
- Impostare le Priorità: Ogni richiesta riceve una priorità in base al suo TTFT e TDS attesi. Le richieste che necessitano di una consegna più veloce sono prioritizzate.
- Allocazione Dinamica delle Risorse: Le risorse vengono allocate dinamicamente, assicurandosi che le richieste più urgenti ricevano l'attenzione di cui hanno bisogno. Questo significa che le richieste meno urgenti possono essere temporaneamente messe in pausa per concentrarsi su quelle che richiedono risposte immediate.
- Gestione della Consegna dei Token: Man mano che i token vengono generati, vengono memorizzati in un buffer. Questo buffer controlla il ritmo a cui i token vengono consegnati all'utente, adattandolo alla loro velocità di lettura prevista.
Valutare il Nuovo Sistema
Per vedere quanto bene il nuovo sistema funziona, vengono effettuati test utilizzando vari modelli e scenari utente. Gli obiettivi principali sono:
- Migliorare la QoE Media: Il nuovo sistema dovrebbe aumentare significativamente i punteggi medi di QoE per diverse richieste degli utenti.
- Gestire Tassi di Richiesta Elevati: Dovrebbe gestire un numero maggiore di richieste senza compromettere l'esperienza utente. Il sistema dovrebbe essere in grado di servire più utenti contemporaneamente senza bisogno di risorse extra.
- Mantenere la Capacità di Produzione: La velocità complessiva di generazione dei token dovrebbe rimanere stabile, assicurando che il sistema possa continuare a produrre risposte in modo efficiente.
Risultati dei Test
Il nuovo sistema mostra risultati promettenti in vari test. Migliora costantemente la QoE media, specialmente sotto pesanti carichi di utenti. Invece di sacrificare l'esperienza di un utente per un altro, il sistema bilancia efficacemente le esigenze di ciascun utente.
- Soddisfazione degli Utenti: Gli utenti riportano un'esperienza complessiva migliore, con TTFT più veloci e un TDS più confortevole che corrisponde alla loro capacità di lettura.
- Efficienza delle Risorse: Il sistema può gestire più richieste contemporaneamente senza necessitare di risorse extra, riducendo i costi operativi.
- Stabilità della Capacità di Produzione: Anche con molti utenti, il sistema mantiene costante la velocità di generazione dei token, assicurando che non rallenti di fronte a un aumento della domanda.
Conclusione
In conclusione, il nuovo sistema di streaming di testo AI offre un miglioramento significativo rispetto ai metodi tradizionali. Concentrandosi sulle esperienze individuali degli utenti e regolando dinamicamente l'allocazione delle risorse, migliora la qualità complessiva dei servizi interattivi. Questo approccio mostra promesse per le applicazioni future, aprendo la strada a sistemi più efficienti e user-friendly nel campo delle interazioni testuali generate dall'AI.
Man mano che la domanda di risposte più interattive e immediate continua a crescere, sistemi come questo saranno essenziali per fornire esperienze utente fluide e soddisfacenti.
Titolo: Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services
Estratto: Large language models (LLMs) are now at the core of conversational AI services such as real-time translation and chatbots, which provide live user interaction by incrementally streaming text to the user. However, existing LLM serving systems fail to provide good user experience because their optimization metrics are not always aligned with user experience. In this paper, we first introduce and define the notion of Quality-of-Experience (QoE) for text streaming services by considering each user's end-to-end interaction timeline. Based on this, we propose Andes, a QoE-aware LLM serving system that enhances user experience by ensuring that users receive the first token promptly and subsequent tokens at a smooth, digestible pace, even during surge periods. This is enabled by Andes's preemptive request scheduler that dynamically prioritizes requests at the token granularity based on each request's expected QoE gain and GPU resource usage. Our evaluations demonstrate that, compared to state-of-the-art LLM serving systems, Andes improves the average QoE by up to $4.7\times$ given the same GPU resource, or saves up to 61% GPU resources while maintaining the same high QoE.
Autori: Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury
Ultimo aggiornamento: 2024-12-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.16283
Fonte PDF: https://arxiv.org/pdf/2404.16283
Licenza: https://creativecommons.org/publicdomain/zero/1.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.