Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Il divario dei prezzi dei modelli linguistici

Investigando le differenze di prezzo e prestazioni nei servizi dei modelli linguistici.

― 6 leggere min


Disparità nei costi deiDisparità nei costi deimodelli linguisticidi tecnologia linguistica.Esaminare i prezzi ingiusti nei servizi
Indice

I modelli linguistici stanno diventando una parte importante delle nostre vite, specialmente con i Servizi che ci permettono di usarli tramite internet. Adesso molte aziende offrono questi servizi a pagamento. Quando si usano questi servizi di modelli linguistici, di solito si fa pagare in base al numero di "token" che elaborano o creano. Un token è un'unità base di testo, ma il numero di token necessari può variare molto tra le lingue. Questa differenza può influire su quanto finisce per pagare un utente a seconda della propria Lingua.

Questo articolo esplora come le diverse lingue vengono addebitate per l'uso dei modelli linguistici. Analizziamo l'equità dei prezzi dei servizi che consentono più lingue esaminando come definiscono e contano i token. Il nostro studio copre 22 lingue che sono piuttosto diverse tra loro e mostriamo che molti parlanti di lingue meno comuni pagano di più per risultati di qualità inferiore. Molti di questi parlanti provengono da aree dove tali servizi sono già troppo costosi.

API dei modelli linguistici

I modelli linguistici sono addestrati per prevedere cosa verrà dopo in un testo basato su ciò che è stato prima. Recentemente, molte aziende hanno lanciato servizi online (API) che permettono agli utenti di lavorare con i loro modelli usando il linguaggio naturale. Questi servizi possono gestire molte lingue diverse e caricano gli utenti in base a quanto li usano, spesso con un limite per l'uso a basso Costo ma con tariffe più alte per un utilizzo maggiore.

Tuttavia, cosa conta come "token" non è chiaramente definito e può variare in base alle scelte progettuali dei programmatori. La maggior parte dei modelli usa tokenizer, che suddividono il testo in parti più piccole. I modi in cui questi tokenizer funzionano possono portare a differenze significative in quanto testo è rappresentato da token in lingue diverse.

Comprendere la Tokenizzazione

La tokenizzazione è un metodo per suddividere il testo in parti più piccole ed è un'area di ricerca attiva. Ci sono molti modi per creare token, ma un approccio comune è quello di suddividere il testo in pezzi più piccoli chiamati subword. Questi subword possono generare una vasta gamma di token, specialmente quando sono coinvolte molte lingue e sistemi di scrittura diversi.

Per molti modelli popolari, l'uso di tokenizer basati su subword ha portato a differenze importanti nel modo in cui le lingue sono rappresentate. Questo può comportare che alcune lingue richiedano più token per dire la stessa cosa rispetto ad altre.

L'impatto della tokenizzazione sulle lingue

Per verificare come i diversi tokenizer influenzano le lingue, ci siamo concentrati su diverse domande di ricerca:

  1. Tutte le lingue comunicano idee simili usando lo stesso numero di token?
  2. Le differenze nel numero di token portano a costi variabili per lingue differenti?
  3. Queste differenze nei token influiscono sull'utilità generale dei modelli linguistici?
  4. Come entrano in gioco i fattori economici per gli utenti con background diversi?

Analizzando il conteggio dei token

Abbiamo iniziato guardando al numero medio di token usati in diverse lingue per comunicare la stessa idea. Abbiamo trovato ampie differenze tra le lingue. Per alcune lingue, possono volerci cinque volte il numero di token rispetto ad altre per esprimere lo stesso contenuto. In generale, le lingue che usano l'alfabeto latino sono state tokenizzate in modo più efficiente rispetto a quelle che non lo usano, come il tamil o il georgiano.

Questa discrepanza può derivare da come i tokenizer sono stati addestrati, principalmente su lingue che usano l'alfabeto latino, portando a meno token per quelle lingue.

Disparità di costi nei modelli linguistici

Dato che i fornitori di servizi linguistici addebitano in base ai conteggi dei token, questa variazione nella tokenizzazione può significare che gli utenti di lingue meno comuni finiscono per pagare molto di più per un servizio simile offerto a chi parla lingue più comuni. Ad esempio, i parlanti di lingue indoeuropee potrebbero trovarsi a pagare fino a cinque volte di più per avere un servizio equivalente rispetto ai parlanti inglesi.

Questo problema può limitare l'accesso per molti utenti che già trovano questi servizi troppo costosi, specialmente nelle regioni meno sviluppate.

Utilità e efficacia del modello

Usare diversi conteggi di token può anche influenzare quanto bene funziona un modello linguistico tra lingue diverse. Quando abbiamo esaminato come questi modelli si comportano in vari compiti, abbiamo visto che le lingue con conteggi di token alti spesso avevano risultati peggiori.

È diventato chiaro che le lingue con lunghezze di token più lunghe fanno più fatica durante l'apprendimento contestuale, un metodo in cui il modello impara dagli esempi forniti in tempo reale. Molte lingue come il telugu e l’amarico avevano difficoltà anche solo a far rientrare un esempio nello spazio consentito dal modello per l'input, costringendo gli utenti a utilizzare il modello senza esempi precedenti.

Implicazioni socio-economiche

Non sorprende che i costi legati ai modelli linguistici possano riflettere le condizioni economiche. La nostra ricerca ha trovato una forte tendenza: man mano che l'Indice di Sviluppo Umano (HDI) di un paese scende, il costo medio e il conteggio dei token per le lingue parlate lì tendono ad aumentare. Questo dimostra che coloro che possono meno permettersi tali servizi spesso pagano di più ricevendo risultati di qualità inferiore.

Questa ingiustizia evidenzia un problema critico: mentre avanziamo nella tecnologia, dobbiamo fare in modo che rimanga accessibile a tutti, non solo a chi ha già una posizione economica migliore.

La strada da seguire

Le sfide viste nei prezzi e nella funzionalità delle API dei modelli linguistici rendono essenziale che i fornitori siano più trasparenti riguardo ai limiti dei loro modelli. Molti utenti potrebbero non capire perché vengono addebitati di più o perché la loro esperienza è peggiore.

Consigliamo di sviluppare politiche di prezzo che considerino la lingua utilizzata e le prestazioni del modello quando si lavora con quella lingua. Un altro approccio potrebbe essere quello di passare dal fare pagare per token a fare pagare in base ai caratteri, il che potrebbe aiutare a creare una struttura di prezzo più equa.

L'accesso a modelli open-source potrebbe anche essere vantaggioso. Anche se questi modelli spesso funzionano meglio in impostazioni zero-shot, molti richiedono ancora investimenti significativi in risorse server, cosa che può risultare impraticabile per molti sviluppatori.

La ricerca mirata a ridurre le risorse necessarie per eseguire questi modelli potrebbe aumentare l'accessibilità. I progressi nella tecnologia potrebbero anche portare a metodi di tokenizzazione più efficaci che trattano tutte le lingue in modo più equo.

Conclusione

Le differenze nei costi e nelle prestazioni per varie lingue quando si usano modelli linguistici presentano sfide significative. Questo è particolarmente vero per le lingue meno comuni e per i parlanti nelle regioni in via di sviluppo. Creando sistemi di prezzo più equi e migliorando la tecnologia, possiamo lavorare verso un approccio più inclusivo che benefici tutti gli utenti linguistici in modo equo.

Dovrebbero essere fatti sforzi non solo dalle aziende, ma anche dai ricercatori e dagli sviluppatori per garantire che i progressi nella tecnologia linguistica non lascino indietro nessuno. La trasparenza, modelli di prezzo migliorati e una migliore allocazione delle risorse sono fattori chiave per assicurare che tutti possano accedere e beneficiare di queste potenti tecnologie.

Fonte originale

Titolo: Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models

Estratto: Language models have graduated from being research prototypes to commercialized products offered as web APIs, and recent works have highlighted the multilingual capabilities of these products. The API vendors charge their users based on usage, more specifically on the number of ``tokens'' processed or generated by the underlying language models. What constitutes a token, however, is training data and model dependent with a large variance in the number of tokens required to convey the same information in different languages. In this work, we analyze the effect of this non-uniformity on the fairness of an API's pricing policy across languages. We conduct a systematic analysis of the cost and utility of OpenAI's language model API on multilingual benchmarks in 22 typologically diverse languages. We show evidence that speakers of a large number of the supported languages are overcharged while obtaining poorer results. These speakers tend to also come from regions where the APIs are less affordable to begin with. Through these analyses, we aim to increase transparency around language model APIs' pricing policies and encourage the vendors to make them more equitable.

Autori: Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Jungo Kasai, David R. Mortensen, Noah A. Smith, Yulia Tsvetkov

Ultimo aggiornamento: 2023-05-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.13707

Fonte PDF: https://arxiv.org/pdf/2305.13707

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili