Desenvolvendo um Modelo de Linguagem Financeira Tailandês

Criando um modelo especializado para finanças tailandesas através de técnicas inovadoras.

Índice

A Ascensão dos Modelos de Linguagem Grandes
Preenchendo a Lacuna
Como Fizemos
Construindo o Modelo
Melhorando o Treinamento
Um Resumo Rápido do Nosso Trabalho
LLMs no Domínio Financeiro
O que é o Exame de Licença de Consultor de Investimentos?
Produto Simples (P1)
Produto Complexo 1 (P2)
Produto Complexo 2 (P3)
A Máquina por trás do ReLoRA
Preparando os Dados
Quebrando Tudo
Aumento de Dados Inteligente
Aumento de Dados Auto-supervisionado
Aumento de Múltiplos Prompts de Sistema
Embaralhamento de Múltiplas Escolhas
Geração de Respostas Multi-LLM
Geração de Perguntas e Respostas a partir de Markdown
Otimizando o Modelo
Pré-Treinamento Contínuo
Ajuste Fino Supervisionado
Otimização de Preferência Direta
Configuração Experimental
Conjunto de Dados de Treinamento
Exame Prático Público de Consultor de Investimentos
Resultados
Conclusão
Agradecimentos
Fonte original

Modelos de Linguagem Grandes (LLMs) são os super-heróis das tarefas de texto. Eles conseguem lidar com várias coisas de boa. Mas quando se trata de áreas específicas como finanças, eles se atrapalham com jargões complicados e regras locais. Modelos como FinGPT e BloombergGPT não são muito bons no cenário financeiro tailandês. Eles não sabem como lidar com a conversa sobre grana local.

Para resolver isso, criamos um LLM financeiro tailandês usando questões de prova do exame de Consultor de Investimentos na Tailândia. Como nosso conjunto de dados era menor do que gostaríamos, a gente deu um upgrade com truques como Aumento de Dados, ReLoRA pra treinar rápido e mais algumas coisas pra garantir que ele entendesse melhor as finanças tailandesas. Colocamos o modelo em provas simuladas pra ver como ele ia, e ele se saiu bem, marcando 72% nos dois primeiros níveis e 84% no terceiro.

A Ascensão dos Modelos de Linguagem Grandes

Nos últimos anos, os LLMs foram ficando bem bons em várias tarefas, especialmente conversas. Esses modelos aprendem coisas gerais a partir de muito texto. Um dos destaques é o Llama 3.1, que tá arrasando nas tarefas de conversa sem precisar de cola.

Mas aqui vai a real: os LLMs podem ter dificuldade com termos especializados em algumas áreas. Eles ficam perdidos quando se deparam com jargões financeiros, que são super importantes em finanças. Eles precisam captar o significado por trás de termos e cálculos complexos, tudo isso seguindo as regras locais. Mas, relaxa!

Modelos mais novos, como FinGPT e BloombergGPT, estão melhorando. Mesmo assim, eles não entendem bem o mercado financeiro tailandês. Tem uma lacuna que precisa ser preenchida.

Preenchendo a Lacuna

A gente viu essa lacuna e pensou: "Por que não construir um modelo que realmente entenda as finanças tailandesas?" Então pegamos o exame de Consultor de Investimentos da Bolsa de Valores da Tailândia pra usar como nosso campo de treinamento. Como estávamos lidando com um conjunto de dados pequeno, usamos todas as técnicas de aumento de dados que conseguimos. Esse truque mágico basicamente multiplica nossos dados pra deixar nosso modelo mais esperto.

Usamos um método chamado ReLoRA pra deixar o treinamento mais rápido e eficiente. Além disso, duas sessões de treino especiais foram criadas pra preparar o modelo pra situações reais de exame. Os resultados foram impressionantes-nosso modelo passou com louvor!

Como Fizemos

Construindo o Modelo

Começamos do zero e construímos um modelo de linguagem focado no setor financeiro tailandês. Pra dar uma misturada, pegamos o conjunto de dados do exame de Consultor de Investimentos e adicionamos mais dados usando técnicas de aumento inteligentes.

Melhorando o Treinamento

Facilitamos a vida do modelo com o ReLoRA. Essa técnica permite treinar grandes modelos mais rápido, mantendo a força deles. Com o pré-treinamento contínuo, garantimos que o modelo estivesse por dentro dos fundamentos das finanças antes de se aprofundar em tópicos específicos. E pra ajustes finos, usamos o Rank-Stabilized LoRA, que é só um jeito chique de dizer que mantivemos tudo estável enquanto fazíamos melhorias.

Também criamos duas formas de treinar: uma que imitava as condições reais do exame e outra que ajudava o modelo a aprender com seus erros. Com essas estratégias, nosso modelo foi ajustado pra enfrentar qualquer pergunta que aparecesse.

Um Resumo Rápido do Nosso Trabalho

Desenvolvimento do LLM Financeiro Tailandês: Criamos um modelo só pra finanças tailandesas usando o exame de Consultor de Investimentos.
Aumento de Dados: Usamos técnicas pra aumentar nosso conjunto de dados limitado, deixando nosso modelo mais esperto.
Treinamento Eficiente: Usamos ReLoRA pra otimizar nosso tempo e recursos de treinamento garantindo que o modelo aprendesse de forma eficaz.
Simulação de Exame e Feedback: Criamos um ambiente de exame realista e usamos feedback pra melhorar o modelo continuamente.

Com essas técnicas combinadas, a gente montou um LLM que pode encarar perguntas de consultoria financeira como um profissional!

LLMs no Domínio Financeiro

Os LLMs são úteis pra tarefas financeiras, já que conseguem lidar com diferentes desafios de linguagem. Cada modelo tem suas forças, como suportar múltiplas línguas ou ser rápido. Mas isso não é o suficiente. Eles precisam se adaptar pra atender às necessidades específicas do mundo financeiro.

Alguns modelos como FinBERT focam exclusivamente em análise de sentimentos dentro de textos financeiros. O FLUE e seu derivado FLANG-BERT servem como referências pra entendimento financeiro. O BloombergGPT tem tesouros de dados financeiros pra arrasar nas tarefas financeiras, enquanto o FinGPT é todo sobre tornar as finanças mais acessíveis através de técnicas de código aberto.

Porém, muitos modelos existentes falham quando se trata de conhecimento específico da Tailândia. Muitas vezes ficam perdidos nas regras locais e aceitação, o que pode levar a alguns mal-entendidos.

O que é o Exame de Licença de Consultor de Investimentos?

O Exame de Licença de Consultor de Investimentos é um teste obrigatório pra profissionais que querem dar conselhos de investimento na Tailândia. Ele tem três níveis: P1, P2 e P3. Cada nível é uma base pro próximo, garantindo que os candidatos saibam o que estão fazendo.

Produto Simples (P1)

Esse nível básico foca em três áreas principais:

Conhecimento Fundamental: Coisas como ambientes de investimento e risco.
Regras e Regulamentações Relacionadas: Entender a parte legal.
Conhecimento de Produtos: Cobre produtos financeiros diferentes como ações e títulos.

Tem 100 questões de múltipla escolha, e você precisa marcar pelo menos 70% pra passar.

Produto Complexo 1 (P2)

Esse nível se aprofunda, focando em produtos financeiros complexos como títulos estruturados e fundos mútuos. Tem 25 questões de múltipla escolha e também exige pelo menos 70% pra passar.

Produto Complexo 2 (P3)

Esse é o nível mais avançado, cobrindo derivativos como futuros e opções. Tem 50 questões de múltipla escolha, e você precisa de pelo menos 70% pra passar de novo.

A Máquina por trás do ReLoRA

O ReLoRA é uma forma inteligente de treinar grandes modelos sem gastar muitos recursos. Ele funciona usando atualizações de baixo rank, que soa chique, mas basicamente significa que ele faz o modelo melhorar sem sobrecarregar seu computador.

Como Funciona?

Fase de Treinamento Inicial: Começa com treinamento de rank completo pra estabelecer uma base sólida.
Atualizações de Baixo Rank: Aplica atualizações mais leves pra manter o movimento.
Cronograma de Taxa de Aprendizado: Reinicia o ritmo de aprendizado pra deixar o treinamento suave.
Reinícios de Otimizador: Atualiza partes do otimizador pra evitar ficar preso.

Esse sistema inteligente não só acelera o processo de treinamento, mas também o torna menos intenso em recursos, o que é música pra quem quer economizar.

Preparando os Dados

Lidar com documentos grandes pode ser complicado, especialmente quando se trata de preparar dados pra treinamento. A gente usou uma técnica chamada Chunking Dinâmico Markdown. Esse método corta documentos grandes em pedaços menores e gerenciáveis enquanto mantém tudo lógico e no tema.

Quebrando Tudo

Chunking Inicial: A gente corta o documento com base nos títulos, garantindo que cada pedaço seja completo em seu contexto.
Divisões Adicionais: Se um pedaço ficar muito grande, a gente fatiar ele mais usando divisões lógicas como parágrafos.

Dessa forma, nosso modelo consegue digerir a informação mais facilmente, mantendo tudo relevante.

Aumento de Dados Inteligente

Com nosso conjunto de dados de questões de exame e uma boa quantidade de materiais de estudo, a gente precisava garantir que nosso modelo permanecesse afiado e pronto pra qualquer coisa. Então, usamos várias truques de aumento de dados.

Aumento de Dados Auto-supervisionado

Pra criar dados de raciocínio pra questões de exame, fizemos o modelo produzir razões pra cada escolha de resposta. Assim, ele poderia aprender com as respostas certas e até mesmo com as erradas.

Aumento de Múltiplos Prompts de Sistema

Apresentamos o mesmo conteúdo do exame de maneiras diferentes. Essa abordagem fez o modelo se acostumar com uma variedade de cenários, preparando-o pra diferentes tipos de perguntas.

Embaralhamento de Múltiplas Escolhas

Pra manter o modelo focado nas perguntas e não na ordem das respostas, a gente misturou as opções de resposta. Assim, ele teve que prestar atenção no conteúdo ao invés de padrões.

Geração de Respostas Multi-LLM

Aproveitamos o poder de múltiplos modelos pra produzir várias respostas pra cada pergunta, enriquecendo nosso conjunto de dados e melhorando o aprendizado do modelo.

Geração de Perguntas e Respostas a partir de Markdown

Usando a estrutura de documentos markdown, geramos pares de perguntas e respostas com base nos títulos e seus conteúdos correspondentes. Isso nos deu uma montanha de perguntas e respostas significativas pra treinamento.

Otimizando o Modelo

Pré-Treinamento Contínuo

Fizemos o pré-treinamento do modelo com uma parte dos nossos materiais de estudo usando pedaços de dados markdown pra ajudar ele a entender os fundamentos das finanças.

Ajuste Fino Supervisionado

Usamos dois métodos:

CoT em Raciocínio: Esse método melhorou as habilidades de raciocínio do modelo fazendo-o explicar as respostas corretas.
Ajuste Fino de Pergunta-Resposta: Aqui, treinamos com vários pares de pergunta-resposta, melhorando sua adaptabilidade e generalização.

Otimização de Preferência Direta

Aplicamos duas variações de DPO pra aprimorar as habilidades de raciocínio do modelo:

CoT em Raciocínio: Essa variante ajudou o modelo a gerar as melhores explicações.
Aprendizado Zero-shot com Embaralhamento: Aqui, o foco foi priorizar o conteúdo acima da posição.

Configuração Experimental

Pra ver como nosso modelo funcionava, fizemos testes em exames públicos de IC. Usamos vários modelos comercialmente disponíveis e modelos de fundação ajustados por instruções pra comparar performances.

Conjunto de Dados de Treinamento

Nosso conjunto de dados continha:

Provas Simuladas: Um número limitado de testes simulados que cobriam todos os três níveis do exame.
Materiais de Estudo: Mais de 1,3 milhão de tokens de conteúdo cobrindo muitos tópicos financeiros importantes.

Exame Prático Público de Consultor de Investimentos

Escolhemos exames práticos fornecidos pela SET como nossos dados de teste. Isso permitiu que a gente comparasse nossos resultados com referências conhecidas facilmente.

Resultados

Depois de rodar nossos testes, os resultados mostraram um desempenho incrível entre os modelos. APIs comerciais como gpt-4o mostraram pontuações robustas em todos os testes. Mas o que foi ainda mais empolgante foi que nosso modelo, o THaLLE-IC, se saiu bem, especialmente no exame P3, que é mais complicado.

Conclusão

Nesse relatório, cobrimos a jornada de criar o THaLLE-IC, um modelo especificamente projetado pro domínio financeiro tailandês. Através de estratégias de dados e treinamento inteligentes, conseguimos equipá-lo com as habilidades necessárias pra lidar com questões de exame do mundo real.

Enquanto modelos comerciais costumam brilhar em geral, o THaLLE-IC prova que modelos de código aberto bem ajustados podem competir, oferecendo desempenho promissor a uma fração do custo. À medida que avançamos, fica claro que com a abordagem certa, podemos tornar modelos inteligentes ainda mais espertos sem gastar uma fortuna.

Agradecimentos

Valeu a todos que nos apoiaram pra trazer esse projeto à vida, especialmente nossos gerentes de projeto e membros da equipe.

Desenvolvendo um Modelo de Linguagem Financeira Tailandês

A Ascensão dos Modelos de Linguagem Grandes

Preenchendo a Lacuna

Como Fizemos

Construindo o Modelo

Melhorando o Treinamento

Um Resumo Rápido do Nosso Trabalho

LLMs no Domínio Financeiro

O que é o Exame de Licença de Consultor de Investimentos?

Produto Simples (P1)

Produto Complexo 1 (P2)

Produto Complexo 2 (P3)

A Máquina por trás do ReLoRA

Preparando os Dados

Quebrando Tudo

Aumento de Dados Inteligente

Aumento de Dados Auto-supervisionado

Aumento de Múltiplos Prompts de Sistema

Embaralhamento de Múltiplas Escolhas

Geração de Respostas Multi-LLM

Geração de Perguntas e Respostas a partir de Markdown

Otimizando o Modelo

Pré-Treinamento Contínuo

Ajuste Fino Supervisionado

Otimização de Preferência Direta

Configuração Experimental

Conjunto de Dados de Treinamento

Exame Prático Público de Consultor de Investimentos

Resultados

Conclusão

Agradecimentos

Tópicos referenciados

Artigos semelhantes

Desenvolvendo um Modelo de Linguagem Financeira Tailandês

#A Ascensão dos Modelos de Linguagem Grandes

#Preenchendo a Lacuna

#Como Fizemos

#Construindo o Modelo

#Melhorando o Treinamento

#Um Resumo Rápido do Nosso Trabalho

#LLMs no Domínio Financeiro

#O que é o Exame de Licença de Consultor de Investimentos?

#Produto Simples (P1)

#Produto Complexo 1 (P2)

#Produto Complexo 2 (P3)

#A Máquina por trás do ReLoRA

#Preparando os Dados

#Quebrando Tudo

#Aumento de Dados Inteligente

#Aumento de Dados Auto-supervisionado

#Aumento de Múltiplos Prompts de Sistema

#Embaralhamento de Múltiplas Escolhas

#Geração de Respostas Multi-LLM

#Geração de Perguntas e Respostas a partir de Markdown

#Otimizando o Modelo

#Pré-Treinamento Contínuo

#Ajuste Fino Supervisionado

#Otimização de Preferência Direta

#Configuração Experimental

#Conjunto de Dados de Treinamento

#Exame Prático Público de Consultor de Investimentos

#Resultados

#Conclusão

#Agradecimentos

Tópicos referenciados

Artigos semelhantes

A Ascensão dos Modelos de Linguagem Grandes

Preenchendo a Lacuna

Como Fizemos

Construindo o Modelo

Melhorando o Treinamento

Um Resumo Rápido do Nosso Trabalho

LLMs no Domínio Financeiro

O que é o Exame de Licença de Consultor de Investimentos?

Produto Simples (P1)

Produto Complexo 1 (P2)

Produto Complexo 2 (P3)

A Máquina por trás do ReLoRA

Preparando os Dados

Quebrando Tudo

Aumento de Dados Inteligente

Aumento de Dados Auto-supervisionado

Aumento de Múltiplos Prompts de Sistema

Embaralhamento de Múltiplas Escolhas

Geração de Respostas Multi-LLM

Geração de Perguntas e Respostas a partir de Markdown

Otimizando o Modelo

Pré-Treinamento Contínuo

Ajuste Fino Supervisionado

Otimização de Preferência Direta

Configuração Experimental

Conjunto de Dados de Treinamento

Exame Prático Público de Consultor de Investimentos

Resultados

Conclusão

Agradecimentos