Le fossé des prix des modèles de langage
Enquête sur les écarts de prix et de performance dans les services de modèles de langage.
― 7 min lire
Table des matières
Les modèles de langage deviennent une grande partie de nos vies, surtout avec les Services qui nous permettent d'utiliser ces modèles via internet. Beaucoup de boîtes proposent maintenant ces services moyennant un coût. Quand on utilise ces services de modèles de langage, ils facturent généralement en fonction du nombre de "tokens" qu'ils traitent ou créent. Un token, c'est une unité de texte basique, mais le nombre de tokens nécessaires peut varier beaucoup d'une langue à l'autre. Cette différence peut influencer combien d'argent les utilisateurs finissent par payer selon leur langue.
Cet article examine comment différentes Langues sont facturées pour l'utilisation des modèles de langage. On analyse l'équité des prix des services qui permettent plusieurs langues en regardant comment ils définissent et comptent les tokens. Notre étude couvre 22 langues qui sont assez différentes les unes des autres, et on montre que beaucoup de locuteurs de langues moins courantes paient plus pour obtenir des résultats de moins bonne qualité. Beaucoup de ces locuteurs viennent d'endroits où ces services sont déjà trop chers.
APIs de modèles de langage
Les modèles de langage sont entraînés à prédire ce qui vient ensuite dans un texte basé sur ce qui a été dit avant. Récemment, beaucoup de boîtes ont lancé des services en ligne (APIs) qui permettent aux utilisateurs de travailler avec leurs modèles en utilisant un langage naturel. Ces services peuvent gérer plusieurs langues et facturent les utilisateurs selon leur utilisation, souvent avec un plafond sur l'utilisation à bas prix mais facturant plus pour une utilisation accrue.
Cependant, ce qui compte comme un "token" n'est pas clairement défini et peut varier selon les choix de design des développeurs. La plupart des modèles utilisent des tokenizers, qui décomposent le texte en parties plus petites. Les manières dont ces tokenizers fonctionnent peuvent entraîner des différences significatives dans la représentation de texte par des tokens dans différentes langues.
Comprendre la Tokenisation
La tokenisation est une méthode pour décomposer le texte en parties plus petites, et c’est un domaine de recherche actif. Il y a plusieurs façons de créer des tokens, mais une méthode courante consiste à décomposer le texte en petites pièces appelées sous-mots. Ces sous-mots peuvent créer une énorme variété de tokens, surtout quand plusieurs langues et systèmes d'écriture sont impliqués.
Pour de nombreux modèles populaires, l'utilisation de tokenizers à sous-mots a conduit à d'importantes différences dans la représentation des langues. Cela peut faire en sorte que certaines langues nécessitent plus de tokens pour dire la même chose par rapport à d'autres.
L'impact de la tokenisation à travers les langues
Pour vérifier comment différents tokenizers affectent les langues, on s'est concentré sur plusieurs questions de recherche :
- Toutes les langues véhiculent-elles des idées similaires avec le même nombre de tokens ?
- Les différences dans le nombre de tokens entraînent-elles des Coûts variés pour différentes langues ?
- Ces différences de tokens affectent-elles l'utilité globale des modèles de langage ?
- Comment les facteurs économiques entrent-ils en jeu pour des utilisateurs de différents milieux ?
Analyser le nombre de tokens
On a commencé par regarder le nombre moyen de tokens utilisés dans différentes langues pour véhiculer la même idée. On a trouvé de larges différences parmi les langues. Pour certaines langues, ça peut prendre cinq fois le nombre de tokens par rapport à d'autres pour exprimer le même contenu. En général, les langues qui utilisent l'alphabet latin étaient tokenisées plus efficacement que celles qui ne le sont pas, comme le tamoul ou le géorgien.
Cette disparité peut provenir de la façon dont les tokenizers ont été entraînés, principalement sur des langues utilisant l'alphabet latin, ce qui entraîne moins de tokens pour ces langues.
Disparités de coûts dans les modèles de langage
Étant donné que les fournisseurs de services linguistiques facturent en fonction du nombre de tokens, cette variation dans la tokenisation peut signifier que les utilisateurs de langues moins courantes finissent par payer beaucoup plus pour un service similaire fourni aux locuteurs de langues plus courantes. Par exemple, les locuteurs de langues indiennes peuvent se retrouver à payer jusqu'à cinq fois plus pour obtenir un service équivalent par rapport aux locuteurs anglais.
Ce problème peut limiter l'accès pour beaucoup d'utilisateurs qui trouvent déjà ces services trop chers, surtout dans les régions moins développées.
Utilité et efficacité des modèles
Utiliser différents nombres de tokens peut aussi affecter la performance d'un modèle de langage à travers différentes langues. Quand on a regardé comment ces modèles fonctionnaient dans diverses tâches, on a vu que les langues avec un nombre élevé de tokens avaient souvent de moins bons résultats.
On a vite compris que les langues avec des longueurs de tokens plus longues ont plus de mal pendant l'apprentissage en contexte, qui est une méthode où le modèle apprend à partir des exemples donnés en temps réel. Beaucoup de langues comme le télougou et l'amharic avaient du mal à même faire tenir un exemple dans l'espace d'entrée autorisé par le modèle, forçant les utilisateurs à utiliser le modèle sans exemples préalables.
Implications socio-économiques
Pas étonnant que les coûts liés aux modèles de langage puissent refléter les conditions économiques. Notre recherche a trouvé une forte tendance : à mesure que l'indice de développement humain (IDH) d'un pays diminue, le coût moyen et le nombre de tokens pour les langues parlées là-bas tendent à augmenter. Cela montre que ceux qui peuvent le moins se permettre de tels services paient souvent plus tout en obtenant des résultats de moindre qualité.
Cette injustice met en lumière un problème crucial : à mesure qu'on avance en technologie, on doit s'assurer qu'elle reste accessible à tous, pas juste à ceux qui ont déjà une meilleure situation économique.
La voie à suivre
Les défis vus dans la tarification et la fonctionnalité des APIs de modèles de langage rendent essentiel que les fournisseurs soient plus transparents sur leurs limites de modèle. Beaucoup d'utilisateurs peuvent ne pas comprendre pourquoi ils sont facturés plus ou pourquoi leur expérience est moins bonne.
On recommande de développer des politiques de tarification qui tiennent compte de la langue utilisée ainsi que de la performance du modèle quand on travaille avec cette langue. Une autre approche pourrait être de passer d'une facturation par token à une facturation par caractère, ce qui pourrait aider à créer une structure de prix plus juste.
L'accès à des modèles open-source pourrait aussi être bénéfique. Bien que ces modèles fonctionnent souvent mieux dans des contextes à zéro-shot, beaucoup nécessitent tout de même des investissements significatifs en ressources serveur, ce qui peut être impraticable pour de nombreux développeurs.
La recherche visant à réduire les ressources nécessaires pour faire tourner ces modèles pourrait augmenter l'accessibilité. Les avancées technologiques pourraient aussi mener à de meilleures méthodes de tokenisation qui traitent toutes les langues plus équitablement.
Conclusion
Les différences de coûts et de performance pour diverses langues lors de l'utilisation des modèles de langage posent des défis significatifs. C'est surtout vrai pour les langues moins courantes et pour les locuteurs dans les régions en développement. En créant des systèmes de tarification plus équitables et en améliorant la technologie, on peut travailler vers une approche plus inclusive qui bénéficie à tous les utilisateurs de langues de manière égale.
Des efforts devraient être faits non seulement par les entreprises mais aussi par les chercheurs et les développeurs pour s'assurer que les avancées dans la technologie linguistique ne laissent personne de côté. La transparence, de meilleurs modèles de tarification et une meilleure allocation des ressources sont des facteurs clés pour s'assurer que tout le monde puisse accéder à ces technologies puissantes et en profiter.
Titre: Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models
Résumé: Language models have graduated from being research prototypes to commercialized products offered as web APIs, and recent works have highlighted the multilingual capabilities of these products. The API vendors charge their users based on usage, more specifically on the number of ``tokens'' processed or generated by the underlying language models. What constitutes a token, however, is training data and model dependent with a large variance in the number of tokens required to convey the same information in different languages. In this work, we analyze the effect of this non-uniformity on the fairness of an API's pricing policy across languages. We conduct a systematic analysis of the cost and utility of OpenAI's language model API on multilingual benchmarks in 22 typologically diverse languages. We show evidence that speakers of a large number of the supported languages are overcharged while obtaining poorer results. These speakers tend to also come from regions where the APIs are less affordable to begin with. Through these analyses, we aim to increase transparency around language model APIs' pricing policies and encourage the vendors to make them more equitable.
Auteurs: Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Jungo Kasai, David R. Mortensen, Noah A. Smith, Yulia Tsvetkov
Dernière mise à jour: 2023-05-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.13707
Source PDF: https://arxiv.org/pdf/2305.13707
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/pricing
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://doi.org/10.48550/arxiv.2112.10508
- https://huggingface.co/docs/api-inference/quicktour
- https://github.com/openai/tiktoken
- https://openai.com/pricing
- https://platform.openai.com/tokenizer
- https://help.openai.com/en/articles/6742369-how-do-i-use-the-openai-api-in-different-languages