Automatizando a Marcação de Números Financeiros com Modelos de IA
Uma nova abordagem usa IA pra facilitar a marcação de relatórios financeiros.
― 7 min ler
Índice
Em finanças, as empresas precisam apresentar relatórios que incluem dados numéricos específicos. Esses relatórios seguem certas diretrizes chamadas Princípios Contábeis Geralmente Aceitos (GAAP). Pra facilitar a compreensão das informações nesses relatórios e o processamento por computadores, as empresas usam uma linguagem chamada eXtensible Business Reporting Language (XBRL). Esse sistema usa etiquetas pra rotular cada pedaço de informação, deixando claro o que cada número representa.
Porém, etiquetar esses números corretamente pode ser uma tarefa difícil. O número de etiquetas disponíveis pode ser bem grande, às vezes chegando a milhares. O jeito tradicional de fazer isso envolve ter especialistas treinados que leem os relatórios e atribuem as etiquetas corretas aos números. Esse método não é eficiente, já que contratar muitos especialistas pode sair caro e demorar.
Recentemente, pesquisadores começaram a usar Aprendizado de Máquina, especialmente modelos de linguagem grandes (LLMs), pra automatizar esse processo de etiquetagem. LLMs são tipos avançados de inteligência artificial que conseguem processar e gerar texto parecido com o humano. Usando esses modelos, é possível acelerar o processo de etiquetagem, tornando menos dependente de especialistas humanos.
O Desafio da Etiquetagem de Números Financeiros
Relatórios financeiros contêm muitos números, e cada número pode estar associado a uma etiqueta diferente. Em alguns casos, vários números na mesma seção de um relatório podem precisar de etiquetas únicas. Em outras situações, os números podem incluir tanto etiquetas relevantes quanto irrelevantes. Isso cria um ambiente desafiador pra etiquetagem, especialmente com o contexto limitado disponível nos documentos.
Dado o grande número de etiquetas, se torna crucial desenvolver um bom sistema pra identificar automaticamente e etiquetar os números certos com os rótulos corretos. As grandes quantidades de dados variados nos documentos financeiros complicam ainda mais esse processo.
Métodos Tradicionais
No passado, os pesquisadores abordaram esse problema usando métodos de reconhecimento de entidades nomeadas (NER). Esses métodos identificam entidades específicas no texto e atribuem etiquetas com base em categorias pré-definidas. Porém, estudos anteriores focaram em um número limitado de etiquetas, o que não é suficiente pra variedade ampla de números encontrados em documentos financeiros.
Os sistemas existentes tiveram dificuldades ao tentar usar um conjunto maior de rótulos. Por exemplo, alguns modelos não levaram em conta os extensos metadados disponíveis com as etiquetas XBRL, que poderiam ajudar a melhorar o desempenho. Outros sistemas usaram técnicas que não funcionaram bem para categorias não vistas durante suas fases de inferência.
Modelos Generativos
Uma Nova Abordagem comNossa pesquisa investiga como modelos generativos podem lidar efetivamente com o problema de etiquetar números financeiros em relatórios. Diferente dos modelos tradicionais que dependem bastante de ajustes pra exemplos específicos, modelos generativos têm a capacidade de produzir texto com base no contexto que recebem. Isso significa que eles podem potencialmente etiquetar rótulos não vistos sem exigir exposição prévia a eles.
Na nossa abordagem, utilizamos um modelo específico chamado FLAN-T5. Esse modelo é cuidadosamente ajustado com instruções específicas pra melhorar seu desempenho na tarefa de etiquetar financeiramente. Queremos treinar nosso modelo não só pra gerar as etiquetas, mas também pra criar descrições detalhadas das etiquetas, enriquecendo o contexto disponível pro sistema de etiquetagem.
Nossa Metodologia
Empregamos uma metodologia estruturada que consiste em duas fases principais: uma fase generativa e uma fase de etiquetagem.
Fase Generativa
Na primeira fase, o modelo recebe uma demonstração financeira junto com uma pergunta direcionada a um numeral específico nessa demonstração. O objetivo é que o modelo gere uma descrição apropriada da etiqueta XBRL em vez de fornecer diretamente a etiqueta. Ao gerar descrições detalhadas, o modelo pode diferenciar melhor entre etiquetas semelhantes que podem ter variações sutis.
Fase de Etiquetagem
Uma vez que temos as descrições de etiquetas geradas, entramos na fase de etiquetagem. Aqui, um módulo separado faz a correspondência da documentação produzida pelo modelo com as etiquetas reais. Ele compara as descrições geradas com um conjunto de descrições de verdade pra prever a etiqueta final pro numeral.
Essa abordagem em duas fases nos permite aproveitar os pontos fortes tanto dos modelos generativos quanto dos métodos tradicionais de etiquetagem, criando um sistema mais eficaz no geral.
Experimentação
Pra testar a eficácia da nossa abordagem, conduzimos múltiplos experimentos em conjuntos de dados recentemente lançados que contêm uma ampla gama de documentos financeiros. Comparamos nosso modelo proposto com vários sistemas estabelecidos pra avaliar o desempenho em várias métricas.
Métricas de Avaliação
Usamos várias métricas pra avaliar o desempenho dos nossos modelos, incluindo:
- Macro Precisão: Essa mede a proporção de verdadeiros positivos nas previsões feitas pelo modelo.
- Macro Recall: Essa avalia a capacidade do modelo de encontrar todas as instâncias relevantes dentro dos dados.
- Macro F1 Score: Essa combina precisão e recall, oferecendo um equilíbrio entre os dois.
- Hits@1: Essa métrica verifica com que frequência a melhor previsão do modelo é correta.
Resultados
Nossos experimentos revelaram que nosso modelo superou todas as bases testadas em todos os aspectos. Especificamente, o modelo FLAN-T5 com nosso método de ajuste de instruções mostrou ganhos significativos nas métricas Macro F1 e Hits@1 em comparação com técnicas tradicionais de ajuste fino.
Além disso, descobrimos que nosso modelo demonstra um desempenho impressionante em zero-shot, alcançando uma alta pontuação Macro F1 em etiquetas que nunca tinha visto antes durante o treinamento. Esse resultado destaca a capacidade do modelo generativo de se adaptar a novas situações sem exigir treinamento adicional.
Desafios de Etiquetas Raras
Um dos principais desafios na etiquetagem de números financeiros é etiquetar corretamente etiquetas raras. Essas etiquetas podem aparecer raramente nos dados de treinamento, dificultando para os modelos aprenderem representações precisas. Nossos achados indicam que nosso modelo superou significativamente os sistemas existentes na etiquetagem dessas etiquetas raras.
Ao criar descrições de etiquetas mais robustas, o modelo pode diferenciar entre etiquetas com redação semelhante, reduzindo as taxas de erro para categorias infrequentes.
Principais Contribuições
Nosso trabalho contribui para o campo da análise de documentos financeiros ao introduzir uma estrutura generativa pra tarefa de etiquetagem de números financeiros. Demonstramos os benefícios de usar modelos de linguagem avançados, particularmente no contexto de ajuste de instruções eficiente em parâmetros.
Os resultados que alcançamos destacam a eficácia da nossa abordagem, que permite que nosso modelo se destaque em cenários anteriormente considerados desafiadores ou até mesmo impossíveis de resolver por métodos tradicionais.
Trabalhos Futuros
Olhando pra frente, ainda há espaço pra melhorias. Nosso modelo ainda não incorpora conhecimento financeiro externo, o que poderia refinar ainda mais as previsões de etiquetas. Ao integrar elementos de contexto mais amplos e conhecimento de domínio avançado, queremos aumentar a precisão da etiquetagem e abordar diferenças sutis entre etiquetas semelhantes.
Além disso, criar um ciclo de feedback que envolva a contribuição humana pode aprimorar o processo de aprendizado, permitindo que o modelo se ajuste e melhore ao longo do tempo com base em aplicações do mundo real.
Conclusão
Em conclusão, nossa pesquisa apresenta um avanço significativo na automação da etiquetagem de números financeiros. Ao aproveitar modelos de linguagem grandes e propor uma abordagem generativa, desenvolvemos um sistema capaz de etiquetar dados financeiros de forma precisa, eficiente e escalável. À medida que o campo das finanças continua a evoluir, a integração de aprendizado de máquina e processamento de linguagem natural desempenhará um papel cada vez mais importante na agilização de processos e melhoria da tomada de decisões.
O uso de LLMs representa uma direção promissora para a análise de documentos financeiros, com potencial pra melhorar não só a precisão, mas também a eficiência geral da gestão de dados nesse setor vital.
Título: Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling
Resumo: We study the problem of automatically annotating relevant numerals (GAAP metrics) occurring in the financial documents with their corresponding XBRL tags. Different from prior works, we investigate the feasibility of solving this extreme classification problem using a generative paradigm through instruction tuning of Large Language Models (LLMs). To this end, we leverage metric metadata information to frame our target outputs while proposing a parameter efficient solution for the task using LoRA. We perform experiments on two recently released financial numeric labeling datasets. Our proposed model, FLAN-FinXC, achieves new state-of-the-art performances on both the datasets, outperforming several strong baselines. We explain the better scores of our proposed model by demonstrating its capability for zero-shot as well as the least frequently occurring tags. Also, even when we fail to predict the XBRL tags correctly, our generated output has substantial overlap with the ground-truth in majority of the cases.
Autores: Subhendu Khatuya, Rajdeep Mukherjee, Akash Ghosh, Manjunath Hegde, Koustuv Dasgupta, Niloy Ganguly, Saptarshi Ghosh, Pawan Goyal
Última atualização: 2024-05-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.06671
Fonte PDF: https://arxiv.org/pdf/2405.06671
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://tinyurl.com/t43mwd5m
- https://arxiv.org/pdf/2303.17564.pdf
- https://github.com/subhendukhatuya/FLAN-FinXC
- https://huggingface.co/t5-base
- https://huggingface.co/t5-large
- https://huggingface.co/google/flan-t5-large
- https://huggingface.co/google/flan-t5-xl
- https://huggingface.co/
- https://platform.openai.com/docs/models/gpt-3-5
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ams.org/tex/type1-fonts.html
- https://titlecaseconverter.com/
- https://aaai.org/ojs/index.php/aimagazine/about/submissions#authorGuidelines