Développer un modèle de langage financier thaïlandais
Créer un modèle spécialisé pour la finance thaïlandaise grâce à des techniques novatrices.
KBTG Labs, Atthakorn Petchsod, Pornchanan Balee, Danupat Khamnuansin, Anuruth Lertpiya, Chanatip Saetia, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong
― 11 min lire
Table des matières
- L'essor des grands modèles de langage
- Combler le vide
- Comment on a fait
- Construction du modèle
- Amélioration de l'entraînement
- Un aperçu rapide de notre travail
- LLMs dans le domaine financier
- Qu'est-ce que l'examen de licence de consultant en investissement ?
- Produit simple (P1)
- Produit complexe 1 (P2)
- Produit complexe 2 (P3)
- La machinerie derrière ReLoRA
- Préparation des données
- Décomposition
- Augmentation de données intelligente
- Augmentation de données auto-supervisée
- Augmentation par différents prompts système
- Mélange des choix multiples
- Génération de réponses multi-LLM
- Génération de questions-réponses à partir de Markdown
- Optimisation du modèle
- Pré-entraînement continu
- Réglage supervisé fin
- Optimisation de préférence directe
- Configuration expérimentale
- Ensemble de données d'entraînement
- Examen pratique public de consultant en investissement
- Résultats
- Conclusion
- Remerciements
- Source originale
Les grands modèles de langage (LLMs) sont les super-héros des tâches textuelles. Ils s'en sortent bien avec plein de trucs. Mais quand il s'agit de domaines spécifiques comme la finance, ils se plantent avec le jargon compliqué et les règles locales. Des modèles comme FinGPT et BloombergGPT ne sont pas vraiment faits pour la scène financière thaïlandaise. Ils ne savent pas gérer le blabla financier local.
Pour y remédier, on a créé un LLM financier thaï spécial en utilisant des questions d'examen du test de consultant en investissement en Thaïlande. Comme notre ensemble de données était plus petit que prévu, on l’a boosté avec des trucs stylés comme l'Augmentation de données, ReLoRA pour un entraînement rapide, et d'autres pour s'assurer qu'il comprenne mieux la finance thaïlandaise. On a testé le modèle avec des examens blancs, et il a plutôt bien réussi, avec 72 % aux deux premiers niveaux et 84 % au troisième.
L'essor des grands modèles de langage
Ces dernières années, les LLMs ont bien progressé dans plein de tâches, surtout pour les conversations. Ces modèles apprennent des trucs généraux à partir de plein de textes. Une des stars de ce show, c'est Llama 3.1. Il gère les tâches de conversation sans avoir besoin d'un pense-bête.
Mais voilà le hic : les LLMs peuvent galérer avec des termes techniques et spécialisés dans certains domaines. Ils se perdent avec le jargon financier, et c'est vraiment ce qu'on a besoin en finance. Ils doivent saisir la signification des termes complexes et des calculs, tout en respectant les règles locales. Mais t'inquiète pas !
Des modèles plus récents, comme FinGPT et BloombergGPT, essaient de s'améliorer. Pourtant, ils ne comprennent pas encore vraiment le paysage financier thaïlandais. Il y a un vide à combler.
Combler le vide
On a vu ce vide et on s'est dit : "Pourquoi ne pas créer un modèle qui pige vraiment la finance thaïlandaise ?" Du coup, on a pris l'examen de consultant en investissement de la Bourse de Thaïlande comme terrain d'entraînement. Mais comme on avait un petit ensemble de données, on a mis le paquet sur l'augmentation des données. Ce tour de magie multiplie nos données pour rendre notre modèle plus intelligent.
On a utilisé une méthode appelée ReLoRA pour rendre l'entraînement plus rapide et efficace. En plus, deux sessions d'entraînement spéciales ont été conçues pour préparer le modèle à des situations d'examen réelles. Les résultats étaient impressionnants : notre modèle a réussi haut la main !
Comment on a fait
Construction du modèle
On est partis de zéro et on a construit un modèle de langue concentré sur le domaine financier thaïlandais. Pour pimenter les choses, on a pris l'ensemble de données de l'examen de consultant en investissement et ajouté plus de données grâce à des techniques d'augmentation intelligentes.
Amélioration de l'entraînement
On a facilité l'apprentissage du modèle avec ReLoRA. Cette technique nous permet d'entraîner de gros modèles plus rapidement tout en les gardant puissants. En utilisant un pré-entraînement continu, on a veillé à ce que le modèle soit bien en phase avec les bases de la finance avant d'approfondir des sujets spécifiques. Pour le réglage fin, on a utilisé le LoRA stabilisé par le rang, c'est juste un terme chic pour dire qu'on a gardé les choses stables tout en apportant des améliorations.
On a aussi créé deux façons de s'entraîner : une qui imitait les conditions réelles d'examen et une autre qui aidait le modèle à apprendre de ses erreurs. Avec ces stratégies, notre modèle était affûté pour affronter n'importe quelle question.
Un aperçu rapide de notre travail
-
Développement du LLM financier thaï : On a construit un modèle spécialement pour la finance thaïlandaise en utilisant l'examen de consultant en investissement.
-
Augmentation des données : On a utilisé des techniques pour augmenter notre petit ensemble de données, rendant notre modèle plus intelligent.
-
Entraînement efficace : On a utilisé ReLoRA pour maximiser notre temps et nos ressources d'entraînement tout en s'assurant que le modèle apprenne efficacement.
-
Simulation d'examen et feedback : On a créé un environnement d'examen réaliste et utilisé le feedback pour améliorer le modèle en continu.
Avec toutes ces techniques combinées, on a créé un LLM qui peut gérer les questions de conseil financier comme un pro !
LLMs dans le domaine financier
Les LLMs sont utiles pour les tâches financières puisqu'ils peuvent faire face à différents défis linguistiques. Chaque modèle a ses atouts, comme le soutien de plusieurs langues ou la rapidité. Mais ce n'est pas suffisant. Ils doivent s'adapter aux besoins spécifiques du monde de la finance.
Certains modèles comme FinBERT se concentrent uniquement sur l'analyse de sentiment dans les textes financiers. FLUE et son dérivé FLANG-BERT agissent comme des références pour la compréhension financière. BloombergGPT possède des trésors de données financières pour exceller dans les tâches financières, tandis que FinGPT vise à rendre la finance plus accessible grâce à des techniques open-source.
Cependant, beaucoup de modèles existants ne sont pas à la hauteur quand il s'agit de connaissances spécifiques à la Thaïlande. Ils ratent souvent la cible sur les règles locales et les acceptations, ce qui peut mener à des malentendus gênants.
Qu'est-ce que l'examen de licence de consultant en investissement ?
L'examen de licence de consultant en investissement est un test requis pour les pros qui veulent donner des conseils d'investissement en Thaïlande. Il a trois niveaux : P1, P2, et P3. Chaque niveau s'appuie sur le précédent, s'assurant que les candidats savent ce qu'ils font.
Produit simple (P1)
Ce niveau de base porte sur trois domaines clés :
- Connaissance fondamentale : Des trucs comme les environnements d'investissement et le risque.
- Règles et règlements associés : Compréhension du côté légal.
- Connaissance des produits : Cela couvre différents produits financiers comme les actions et les obligations.
C'est constitué de 100 questions à choix multiples, et tu dois avoir au moins 70 % pour réussir.
Produit complexe 1 (P2)
Ce niveau va plus en profondeur, se concentrant sur des produits financiers complexes comme les obligations structurées et les fonds communs de placement. Il a 25 questions à choix multiples et nécessite aussi au moins 70 % pour passer.
Produit complexe 2 (P3)
C'est la grande ligue, couvrant des dérivés comme les contrats à terme et les options. Il consiste en 50 questions à choix multiples, et il te faut encore une fois au moins 70 % pour réussir.
La machinerie derrière ReLoRA
ReLoRA est une méthode intelligente pour entraîner de gros modèles sans consommer trop de ressources. Ça fonctionne en utilisant des mises à jour de faible rang, ce qui sonne chic mais signifie en gros qu'on fait améliorer le modèle sans épuiser ton ordi.
Comment ça marche ?
- Phase d'entraînement initiale : On commence par un entraînement plein rang pour établir une base solide.
- Mises à jour de faible rang : On applique des mises à jour plus légères pour que ça continue d'avancer.
- Plan de taux d'apprentissage : On réinitialise le rythme d'apprentissage pour garder l'entraînement fluide.
- Réinitialisation d'optimiseur : On rafraîchit certaines parties de l'optimiseur pour éviter de rester coincé.
Ce système astucieux non seulement accélère le processus d'entraînement mais le rend aussi moins gourmand en ressources, ce qui est de la musique aux oreilles de ceux qui essaient d'économiser.
Préparation des données
Gérer de gros documents peut être compliqué, surtout lors de la préparation des données pour l'entraînement. On a utilisé une technique appelée "Dynamic Markdown Chunking". Cette méthode découpe les gros documents en morceaux plus petits et plus gérables tout en gardant tout logique et cohérent.
Décomposition
-
Découpage initial : On découpe le document selon ses en-têtes, s'assurant que chaque morceau est complet dans son contexte.
-
Découpe supplémentaire : Si un morceau devient trop gros, on le découpe encore plus en utilisant des divisions logiques comme les paragraphes.
De cette manière, notre modèle peut assimiler les informations plus facilement, en gardant tout pertinent.
Augmentation de données intelligente
Avec notre ensemble de données d'entraînement rempli de questions d-examen et d'un bon nombre de matériaux d'étude, on devait s'assurer que notre modèle reste affûté et prêt à tout. Donc, on a employé plusieurs astuces d'augmentation de données.
Augmentation de données auto-supervisée
Pour créer des données de raisonnement pour les questions d'examen, on a fait en sorte que le modèle produise des raisons pour chaque choix de réponse. Cela permettait au modèle d'apprendre des bonnes réponses et même des mauvaises.
Augmentation par différents prompts système
On a présenté le même contenu d'examen de différentes manières. Cette approche a habitué le modèle à une variété de scénarios, le préparant à différents types de questions.
Mélange des choix multiples
Pour garder le modèle concentré sur les questions et pas sur l'ordre des réponses, on a mélangé les choix de réponses. Ainsi, il devait prêter attention au contenu plutôt qu'aux schémas.
Génération de réponses multi-LLM
On a exploité la puissance de plusieurs modèles pour produire différentes réponses pour chaque question, enrichissant notre ensemble de données et améliorant l'apprentissage du modèle.
Génération de questions-réponses à partir de Markdown
En utilisant la structure des documents markdown, on a généré des paires question-réponse basées sur les en-têtes et leur contenu correspondant. Cela nous a donné un trésor de questions et réponses significatives pour l'entraînement.
Optimisation du modèle
Pré-entraînement continu
On a pré-entraîné le modèle sur une partie de nos matériaux d'étude en utilisant des morceaux de données markdown pour l'aider à saisir les bases de la finance.
Réglage supervisé fin
On a utilisé deux méthodes :
-
CoT sur le raisonnement : Cette méthode a boosté les compétences de raisonnement du modèle en le faisant expliquer les bonnes réponses.
-
Réglage question-réponse : Ici, on a entraîné avec plusieurs paires question-réponse, améliorant son adaptabilité et sa généralisation.
Optimisation de préférence directe
On a appliqué deux variations de DPO pour affiner les compétences de raisonnement du modèle :
-
CoT sur le raisonnement : Cette variante a aidé le modèle à générer les meilleures explications.
-
Apprentissage zero-shot avec mélange : Le focus ici était sur la priorité du contenu plutôt que de la position.
Configuration expérimentale
Pour voir comment notre modèle fonctionnait, on a réalisé des tests sur des examens IC publics. On a utilisé divers modèles commerciaux disponibles et des modèles de base ajustés par instructions pour évaluer la performance.
Ensemble de données d'entraînement
Notre ensemble de données contenait :
-
Examens simulés : Un nombre limité de tests simulés couvrant les trois niveaux d'examen.
-
Matériaux d'étude : Plus de 1,3 million de tokens couvrant de nombreux sujets financiers importants.
Examen pratique public de consultant en investissement
On a choisi les examens pratiques fournis par la SET comme nos données de test. Cela nous a permis de comparer nos résultats avec des références connues sans souci.
Résultats
Après avoir effectué nos tests, les résultats ont montré une performance vive parmi les modèles. Des API commerciales comme gpt-4o ont affiché des scores solides à travers tous les tests. Mais ce qui était encore plus excitant, c'est que notre modèle maison, THaLLE-IC, a tenu bon, surtout dans l'examen plus délicat P3.
Conclusion
Dans ce rapport, on a couvert le parcours de création de THaLLE-IC, un modèle spécialement conçu pour le domaine financier thaïlandais. Grâce à des techniques d'augmentation et d'entraînement astucieuses, on a réussi à lui donner les compétences nécessaires pour gérer de vraies questions d'examen.
Alors que les modèles commerciaux ont tendance à briller dans tous les domaines, THaLLE-IC prouve que les modèles open-source bien ajustés peuvent rivaliser, offrant une performance prometteuse à une fraction du coût. En avançant, il est clair qu'avec la bonne approche, on peut rendre des modèles intelligents encore plus intelligents sans casser sa tirelire.
Remerciements
Merci à tous ceux qui nous ont soutenus dans la réalisation de ce projet, en particulier nos chefs de projet et membres d'équipe principaux.
Titre: Thai Financial Domain Adaptation of THaLLE -- Technical Report
Résumé: Large Language Models (LLMs) excel in general tasks but struggle with domain-specific challenges, such as specialized terminology and localized regulations. Existing financial LLMs, like FinGPT and BloombergGPT, lack support for the Thai financial domain. We developed a Thai Financial LLM using the Investment Consultant (IC) exam dataset from the Stock Exchange of Thailand. To address dataset limitations, we applied data augmentation, ReLoRA for efficient training, Continued Pretraining (CPT) for domain knowledge, and Rank-Stabilized LoRA (rsLoRA) for fine-tuning. Supervised Fine-Tuning (SFT) simulated exam scenarios, while Direct Preference Optimization (DPO) refined the model using feedback. The model achieved scores of 72%, 72%, and 84% on IC exam levels P1, P2, and P3, respectively, demonstrating its effectiveness in Thai financial advisory tasks and its potential for specialized applications.
Auteurs: KBTG Labs, Atthakorn Petchsod, Pornchanan Balee, Danupat Khamnuansin, Anuruth Lertpiya, Chanatip Saetia, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong
Dernière mise à jour: 2024-11-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.18242
Source PDF: https://arxiv.org/pdf/2411.18242
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.