タイの金融言語モデルを開発中です。

革新的な技術を使ってタイの金融のための専門モデルを作成中。

大規模言語モデルの台頭
ギャップを埋める
どうやってやったか
モデルの構築
トレーニングの強化
仕事の簡単な概要
金融ドメインのLLM
投資コンサルタントライセンス試験とは？
基本商品 (P1)
複雑商品 1 (P2)
複雑商品 2 (P3)
ReLoRAの仕組み
データの準備
分解していく
スマートなデータ拡張
自己教師ありデータ拡張
複数システムプロンプトの拡張
選択肢シャッフル
マルチLLM応答生成
Markdownからの質問-回答生成
モデルの最適化
継続的事前トレーニング
教師あり微調整
直接的な好み最適化
実験セットアップ
トレーニングデータセット
公的な投資コンサルタント練習試験
結果
結論
謝辞
オリジナルソース

大規模言語モデル（LLM）はテキストタスクのスーパーヒーローだね。いろんなことをうまくこなせるんだけど、金融みたいなニッチな分野になると、難しい用語やローカルルールでつまずいちゃう。FinGPTやBloombergGPTみたいなモデルはタイの金融シーンには向いてないんだ。彼らはローカルなマネートークの扱いがわからないんだ。

そこで、タイの投資コンサルタント試験の問題を使って、特別なタイ金融LLMを作ったんだ。データセットがちょっと小さかったから、データ拡張やReLoRAを使ってトレーニングを速くして、他にもいくつかの工夫でタイの金融をより理解できるようにしたんだ。モデルを模擬試験にかけてみたら、最初の2レベルで72%、3レベルで84%のスコアを出したんだ。

大規模言語モデルの台頭

ここ数年、LLMは会話タスクなんかでめっちゃうまくなったよね。これらのモデルは大量のテキストから一般的なことを学ぶんだ。今回の主役の一人はLlama 3.1。こいつはカンニングペーパーなしでも会話タスクをこなしているんだ。

でもここが難しいところで、LLMは特定の分野の難しい専門用語に苦労することがあるんだ。金融用語に直面すると迷っちゃう。金融の世界ではそれが必要なんだけどね。彼らは複雑な用語や計算の背後にある意味を把握しつつ、ローカルルールに従わなきゃいけない。でも心配しないで！

FinGPTやBloombergGPTみたいな新しいモデルは、少しずつ改善されてきてるけど、タイの金融の状況を完全には理解していないんだ。ここにギャップがあるんだ。

ギャップを埋める

このギャップを見たときに、「タイの金融をちゃんと理解できるモデルを作ろう！」って思ったんだ。それで、タイ証券取引所の投資コンサルタント試験を訓練の場として使った。データセットが小さいから、データ拡張に全力を注いだんだ。この魔法のトリックで、モデルが賢くなるんだ。

ReLoRAっていう方法を使って、トレーニングを速く効率的にした。さらに、実際の試験状況に合わせた2つの特別なトレーニングセッションを設計したんだ。結果は素晴らしかった！モデルは見事に合格したんだ！

どうやってやったか

モデルの構築

ゼロからスタートして、タイの金融分野に特化した言語モデルを構築したんだ。投資コンサルタント試験のデータセットを使って、賢いデータ拡張テクニックでデータを増やしたんだ。

トレーニングの強化

ReLoRAを使って、モデルが学ぶのを楽にした。このテクニックを使うと、大きなモデルを早くトレーニングできるんだ。そして、継続的な事前トレーニングで、モデルが金融の基本をしっかり理解するようにしてから、特定のトピックに入っていった。そして、微調整にはRank-Stabilized LoRAを使ったんだけど、これは安定さを保ちながら改善するってことだ。

リアルな試験条件を模倣したトレーニング方法と、モデルが間違いから学ぶ手助けをする方法を2つ作ったんだ。これらの戦略で、モデルはどんな質問にも対応できるように調整されたんだ。

仕事の簡単な概要

タイ金融LLMの開発: 投資コンサルタント試験を使って、タイの金融専用モデルを作った。
データ拡張: 限られたデータセットを増やす技術を使って、モデルを賢くした。
効率的なトレーニング: ReLoRAを使って、トレーニング時間とリソースを最大限に活用しつつ、モデルが効果的に学習できるようにした。
試験シミュレーションとフィードバック: リアルな試験環境を作り、フィードバックを活用してモデルを継続的に改善した。

これらのテクニックを組み合わせて、金融アドバイザリーの質問をプロのようにこなせるLLMを作ったんだ！

金融ドメインのLLM

LLMは、いろんな言語の課題に対応できるから、金融タスクに役立つんだ。各モデルには、複数の言語をサポートしたり、速さが強みだったりする。けど、それだけじゃ足りないんだ。金融の世界の特定のニーズに合わせて適応する必要があるんだ。

FinBERTみたいなモデルは、金融テキスト内の感情分析に特化してる。FLUEとその派生のFLANG-BERTは、金融理解のベンチマークとして機能してる。BloombergGPTは、金融タスクを成功させるために独自のデータ宝庫を持ってて、FinGPTはオープンソース技術で金融をよりアクセスしやすくしようとしてる。

でも、多くの既存モデルはタイ特有の知識に欠けてる。ローカルルールや受け入れについてうまくいかないことが多くて、変な誤解を招くこともあるんだ。

投資コンサルタントライセンス試験とは？

投資コンサルタントライセンス試験は、タイで投資アドバイスをするために必要な試験なんだ。3つのレベルがあって、P1、P2、P3に分かれてる。それぞれのレベルは前のレベルに基づいてて、候補者が何をしてるかを理解しているか確認するんだ。

基本商品 (P1)

この基本レベルは、3つの重要な領域を見てる：

基本知識: 投資環境やリスクについて。
関連規則と規制: 法的な側面の理解。
商品知識: 株や債券みたいなさまざまな金融商品。

100問の選択肢問題があって、合格するには70%以上のスコアが必要なんだ。

複雑商品 1 (P2)

このレベルは、構造債や投資信託みたいな複雑な金融商品にもっと踏み込んでる。25問の選択肢問題があり、こちらも合格には70%以上が必要なんだ。

複雑商品 2 (P3)

ここが本番で、先物やオプションみたいなデリバティブをカバーしてる。50問の選択肢問題があって、またしても合格するには70%以上が必要だ。

ReLoRAの仕組み

ReLoRAは、大きなモデルをリソースを消耗せずにトレーニングする巧妙な方法なんだ。低ランクのアップデートを使うことで、モデルを改善するんだけど、これって要するにコンピュータを疲れさせずに改善するってことなんだ。

どうやって動くの？

初期トレーニングフェーズ: しっかりした基盤を作るためにフルランクのトレーニングからスタート。
低ランクのアップデート: 軽いアップデートを適用して、進み続ける。
学習率スケジュール: 学習のリズムをリセットして、トレーニングをスムーズにする。
オプティマイザーのリセット: オプティマイザーの一部をリフレッシュして、行き詰まらないようにする。

この賢いシステムは、トレーニングプロセスをスピードアップするだけでなく、リソースの消費も少なくしてくれるから、コストを抑えたい人にはぴったりなんだ。

データの準備

大きな文書を扱うのは難しいことがある。特にトレーニング用のデータを準備するのはね。そこで、Dynamic Markdown Chunkingっていうテクニックを使ったんだ。この方法で大きな文書を小さくて管理しやすい部分に分けつつ、論理的かつトピックに入れ込んでおくんだ。

分解していく

初期チャンク分け: ヘッダーに基づいて文書をチャンクに分ける。こうすることで、各部分がその文脈で完全になるようにする。
さらに分割: もしチャンクが大きすぎる場合は、段落みたいな論理的な区分を使ってさらにスライスする。

こうすることで、モデルが情報を消化しやすくなって、関連性を保てるんだ。

スマートなデータ拡張

試験問題が詰まったトレーニングデータセットと、そこそこな学習資料があったから、モデルがいつでもシャープでいられるようにしないとね。だから、いくつかのデータ拡張トリックを使ったんだ。

自己教師ありデータ拡張

試験問題のための推論データを作るために、モデルに各選択肢の理由を生成させたんだ。これで、正しい答えから学ぶこともできるし、間違った答えからも学べる。

複数システムプロンプトの拡張

同じ試験内容をいろんな方法で提示した。これで、モデルがさまざまなシナリオに慣れることができた。

選択肢シャッフル

モデルが質問に集中できるように、選択肢の順番を混ぜた。こうすることで、パターンではなく内容に注意を向ける必要があったんだ。

マルチLLM応答生成

複数のモデルの力を活用して、各質問に対してさまざまな回答を生成し、データセットを豊かにしてモデルの学習を改善したんだ。

Markdownからの質問-回答生成

Markdown文書の構造を使って、ヘッダーとそれに対応する内容に基づいて質問-回答ペアを生成した。これで、トレーニング用の意味のある質問と回答が得られたんだ。

モデルの最適化

継続的事前トレーニング

学習資料の一部でモデルを事前トレーニングして、金融の基本を把握させたんだ。

教師あり微調整

2つの方法を使ったんだ：

推論に関するCoT: この方法で、モデルの推論能力が向上するように、正しい回答を説明させた。
質問-回答微調整: いくつかの質問-回答ペアを使ってトレーニングし、適応力と一般化能力を高めた。

直接的な好み最適化

モデルの推論能力を高めるために、DPOの2つのバリエーションを適用したんだ：

推論に関するCoT: このバリエーションは、モデルが最良の説明を生成するのを助けた。
シャッフルを使ったゼロショット学習: ここでは、位置よりもコンテンツを優先することに焦点を当てた。

実験セットアップ

モデルの性能を確認するために、公的なIC試験でテストを行ったんだ。さまざまな商業利用可能なモデルや指示調整された基盤モデルを使ってパフォーマンスをベンチマークしたんだ。

トレーニングデータセット

データセットには以下が含まれてた：

模擬試験: 3つの試験レベルすべてをカバーした限られた数の模擬テスト。
学習資料: 重要な金融トピックをカバーした130万トークン以上のコンテンツ。

公的な投資コンサルタント練習試験

テストデータとしてSETが提供する練習試験を選んだ。これで、既知のベンチマークに対して結果を比較することができたんだ。

結果

テストを実施した結果、モデルのパフォーマンスはかなり良かったんだ。商業APIのgpt-4oはすべてのテストで強力なスコアを示した。でも、もっとエキサイティングだったのは、私たちが作ったモデルTHaLLE-ICが特に難しいP3試験でもしっかりとした成果を上げたことだ。

結論

この報告書では、タイ金融分野に特化したモデルTHaLLE-ICを作る過程をカバーしたんだ。巧妙なデータとトレーニング戦略を通じて、実際の試験問題に対応できるスキルを備えさせることができたんだ。

商業モデルはどこでも輝くけど、THaLLE-ICはきちんと調整されたオープンソースモデルが競争できることを証明し、コストの一部で期待できるパフォーマンスを提供できるんだ。これから進む中で、適切なアプローチがあれば、賢いモデルをさらに賢くすることが可能だってことがわかるよ。

謝辞

このプロジェクトを実現するためにサポートしてくれたみんな、特にプロジェクトマネジャーや主要メンバーに感謝！

タイの金融言語モデルを開発中です。

大規模言語モデルの台頭

ギャップを埋める

どうやってやったか

モデルの構築

トレーニングの強化

仕事の簡単な概要

金融ドメインのLLM

投資コンサルタントライセンス試験とは？

基本商品 (P1)

複雑商品 1 (P2)

複雑商品 2 (P3)

ReLoRAの仕組み

データの準備

分解していく

スマートなデータ拡張

自己教師ありデータ拡張

複数システムプロンプトの拡張

選択肢シャッフル

マルチLLM応答生成

Markdownからの質問-回答生成

モデルの最適化

継続的事前トレーニング

教師あり微調整

直接的な好み最適化

実験セットアップ

トレーニングデータセット

公的な投資コンサルタント練習試験

結果

結論

謝辞

参照トピック

類似の記事

タイの金融言語モデルを開発中です。

#大規模言語モデルの台頭

#ギャップを埋める

#どうやってやったか

#モデルの構築

#トレーニングの強化

#仕事の簡単な概要

#金融ドメインのLLM

#投資コンサルタントライセンス試験とは？

#基本商品 (P1)

#複雑商品 1 (P2)

#複雑商品 2 (P3)

#ReLoRAの仕組み

#データの準備

#分解していく

#スマートなデータ拡張

#自己教師ありデータ拡張

#複数システムプロンプトの拡張

#選択肢シャッフル

#マルチLLM応答生成

#Markdownからの質問-回答生成

#モデルの最適化

#継続的事前トレーニング

#教師あり微調整

#直接的な好み最適化

#実験セットアップ

#トレーニングデータセット

#公的な投資コンサルタント練習試験

#結果

#結論

#謝辞

参照トピック

類似の記事

大規模言語モデルの台頭

ギャップを埋める

どうやってやったか

モデルの構築

トレーニングの強化

仕事の簡単な概要

金融ドメインのLLM

投資コンサルタントライセンス試験とは？

基本商品 (P1)

複雑商品 1 (P2)

複雑商品 2 (P3)

ReLoRAの仕組み

データの準備

分解していく

スマートなデータ拡張

自己教師ありデータ拡張

複数システムプロンプトの拡張

選択肢シャッフル

マルチLLM応答生成

Markdownからの質問-回答生成

モデルの最適化

継続的事前トレーニング

教師あり微調整

直接的な好み最適化

実験セットアップ

トレーニングデータセット

公的な投資コンサルタント練習試験

結果

結論

謝辞