Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Simplificando a Classificação da Indústria com Aprendizado de Máquina

Descubra como o aprendizado de máquina facilita a classificação de indústrias para empresas de investimento.

― 9 min ler


Técnicas Eficientes deTécnicas Eficientes deClassificação daIndústriade aprendizado de máquina.investimento usando métodos avançadosMaximize a precisão nas decisões de
Índice

No mundo dos investimentos, várias empresas focam em temas ou tendências, tipo "agricultura vertical." Pra encontrar boas oportunidades de investimento nesses temas, os profissionais analisam um montão de informações sobre as empresas. Isso inclui entender o que a empresa faz, seus produtos e sua indústria. Mas, com empresas pertencendo a várias indústrias, descobrir as classificações certas pode ser complicado e demorado. É aí que entra o aprendizado de máquina pra ajudar a simplificar o processo.

O Papel do Aprendizado de Máquina

O aprendizado de máquina pode pegar as descrições das empresas e categorizá-las em uma ou mais indústrias. Essa tarefa é conhecida como Classificação de Texto Multi-Rótulo. De forma mais simples, isso significa pegar as informações de uma empresa e descobrir em quais indústrias ela se encaixa.

Por exemplo, se uma empresa que se especializa em ferramentas tecnológicas também atua no mercado da saúde, ela pode pertencer tanto à indústria de tecnologia quanto à de saúde. Isso ajuda as empresas de investimento a tomarem melhores decisões sobre onde colocar seu dinheiro.

Desafios na Classificação de Empresas

Embora o aprendizado de máquina ofereça uma forma de gerenciar essa classificação, existem desafios:

  1. Dados Limitados: As empresas costumam ter suas próprias categorias de indústrias. Então, elas só podem rotular uma pequena parte dos seus dados. Isso dificulta o treino efetivo dos modelos.

  2. Dados Desbalanceados: Algumas indústrias podem ter muitos exemplos rotulados, enquanto outras podem ter pouquíssimos. Isso pode fazer com que os modelos fiquem tendenciosos em relação às indústrias mais comuns.

  3. Informações em Mudança: Os dados das empresas podem mudar com frequência. Novas empresas surgem e as existentes podem mudar seu foco. Portanto, os modelos precisam de atualizações constantes pra se manterem relevantes.

  4. Tarefa Complexa: Modelos de aprendizado de máquina geralmente precisam de muitos exemplos rotulados pra funcionar bem. No entanto, a tarefa de classificação específica de indústrias apresenta desafios únicos que complicam as abordagens convencionais.

O Que São Modelos de Linguagem Pré-treinados?

Os modelos de linguagem pré-treinados (PLMs) se tornaram populares na área de processamento de linguagem natural. Esses modelos são treinados em grandes quantidades de dados de texto não rotulados pra aprender padrões de linguagem. Uma vez treinados, eles podem ser ajustados em conjuntos de dados rotulados menores pra tarefas específicas, como classificar empresas em indústrias. O ajuste fino refere-se a ajustar o modelo levemente pra se adequar melhor à tarefa específica.

Mas essa abordagem pode trazer alguns problemas. Um grande problema é que o ajuste fino pode fazer o modelo esquecer o que aprendeu durante o treinamento inicial. Além disso, rodar esses modelos pode ser caro em termos de recursos computacionais.

Ajuste Fino Eficiente em Parâmetros

Pra lidar com os problemas de alto custo e possível perda de conhecimento, surgiu um método chamado Ajuste Fino Eficiente em Parâmetros (PEFT). Esse método permite ajustar modelos sem modificar todos os seus parâmetros. Uma abordagem específica dentro do PEFT é o "Ajuste de Prompt."

O Que É Ajuste de Prompt?

O Ajuste de Prompt funciona adicionando um pequeno conjunto de parâmetros, chamados de soft prompts, aos dados de entrada. Em vez de mudar tudo no modelo, esse método só modifica os soft prompts. Isso não só reduz os custos, mas também mantém o conhecimento original do modelo intacto. Assim, ele ainda consegue entender novos dados com eficácia.

Avaliando o Ajuste de Prompt

Esse artigo analisa como o Ajuste de Prompt se sai na tarefa de classificar empresas em indústrias. Compara esse método com técnicas tradicionais, como cabeçotes de classificação e pesquisa de similaridade de embeddings. Essas comparações ajudam a determinar qual método é mais eficaz e eficiente pra essa tarefa.

A Necessidade de Soluções Específicas

Apesar das vantagens dos PLMs, há uma clara necessidade de adaptar esses métodos pra atender a tarefas especializadas como a classificação de indústrias. As soluções existentes geralmente não abordam adequadamente os desafios apresentados por essas necessidades específicas do domínio.

O Estado da Arte em Aprendizado de Máquina para Classificação de Texto

Existem diferentes abordagens para classificar texto, incluindo o uso de algoritmos de compressão e aprendizado em contexto. Cada um desses métodos tem suas vantagens e limitações.

Algoritmos de Compressão

Alguns métodos usam algoritmos de compressão pra categorizar texto. Ao comprimir textos semelhantes juntos, esses métodos conseguem determinar quais rótulos são mais relevantes pra uma determinada entrada. Embora isso possa ser eficiente, muitas vezes carece de precisão.

Aprendizado em Contexto

Outra abordagem é o aprendizado em contexto. Isso envolve incluir exemplos no prompt de entrada pra ajudar o modelo a aprender as classificações sem precisar de um ajuste fino específico. No entanto, esse método tem limitações, especialmente em tarefas que exigem novos conhecimentos.

Métodos de Embedding

Também existem métodos que utilizam embeddings de modelos de linguagem. Esses embeddings representam texto de forma numérica, permitindo que técnicas tradicionais de classificação de aprendizado de máquina sejam utilizadas. Mas, embora esses métodos possam ser eficientes, eles podem nem sempre ter o melhor desempenho.

Melhorando a Classificação Multi-Rótulo

Dadas as limitações dos métodos acima, pesquisadores têm buscado formas de melhorar a classificação multi-rótulo com PLMs. Uma dessas melhorias envolve modificar como os rótulos são gerados durante o processo de classificação.

Método de Busca Trie

Um método inovador chamado Busca Trie pode ajudar a gerar rótulos válidos enquanto evita repetições. Esse método organiza os rótulos em um formato estruturado, facilitando a geração de saídas apropriadas. Ao permitir apenas a geração de rótulos que fazem parte de uma estrutura pré-definida, esse método melhora a precisão das previsões.

Classificação de Embeddings com Ajuste de Prompt (PTEC)

Outra inovação importante discutida é a Classificação de Embeddings com Ajuste de Prompt (PTEC). Esse método combina Ajuste de Prompt com classificação de embeddings, permitindo previsões mais precisas. O PTEC evita as complicações da geração de texto multi-rótulo ao classificar diretamente os embeddings produzidos pelo modelo. Isso significa que ele pode fornecer previsões de rótulos válidos sem depender de uma ordem arbitrária ou gerar cada rótulo sequencialmente.

Metodologia de Avaliação

Pra comparar os diferentes métodos, vários experimentos são realizados usando um conjunto de dados proprietário. O conjunto de dados consiste em nomes de empresas, descrições e seus respectivos rótulos de indústria. Cada empresa pode pertencer a várias indústrias, tornando essencial que o modelo seja capaz de classificação multi-rótulo.

Testando os Modelos

Os modelos são avaliados com base na sua capacidade de classificar indústrias com base nas descrições das empresas, palavras-chave e seus nomes. O objetivo é descobrir qual modelo minimiza a função de perda com base nos resultados da classificação. O principal indicador de desempenho é a média macro da pontuação F1, que avalia a precisão de um modelo em todas as classes.

Resultados e Descobertas

A avaliação revela várias percepções importantes sobre o desempenho do modelo e a eficiência computacional. O PTEC, utilizando tanto Ajuste de Prompt quanto classificação de embeddings, gera os melhores resultados em termos de precisão, além de ser eficiente no uso de recursos. Outros métodos, embora eficazes, podem não oferecer o mesmo nível de economia computacional.

A Importância das Pontuações de Confiança

Uma vantagem notável do PTEC é sua capacidade de fornecer pontuações de confiança com suas previsões. Isso permite que os usuários determinem quão certo o modelo está sobre suas classificações. Poder ajustar a sensibilidade das previsões com base nessas pontuações agrega um valor significativo, principalmente em contextos de investimento.

Discutindo Variabilidade

Outra descoberta importante é a variabilidade observada no desempenho dos modelos. Modelos diferentes podem ter desempenhos inconsistentes, o que pode impactar a confiança em suas previsões. É crucial que as empresas de investimento tenham modelos confiáveis, já que imprecisões podem levar a decisões de investimento ruins.

Subjetividade na Classificação

As tarefas de classificação podem ser subjetivas. Pessoas diferentes podem rotular a mesma empresa de forma diferente, com base em suas percepções das atividades principais. Isso adiciona uma camada extra de complexidade em garantir que os modelos de aprendizado de máquina sejam treinados e validados de forma eficaz.

Direções Futuras

Pra melhorar a robustez desses modelos e métodos, várias áreas podem ser exploradas mais a fundo. Pesquisas futuras podem se concentrar em experimentar métodos PEFT mais avançados ou técnicas de classificação hierárquica. Além disso, há oportunidades de integrar aprendizado auto-supervisionado em dados específicos do domínio pra melhorar o desempenho.

Conclusão

Esse artigo enfatiza a necessidade de adaptar métodos modernos de aprendizado de máquina pra resolver problemas específicos, como a classificação de indústrias. As técnicas discutidas, especialmente o Ajuste de Prompt e o PTEC, mostram potencial pra lidar de forma eficiente com tarefas multi-rótulo, enquanto maximizam a precisão. À medida que o cenário de investimento continua a evoluir, é essencial que as empresas aproveitem soluções eficazes de aprendizado de máquina que possam se adaptar a dados e necessidades da indústria em mudança. Assim, elas podem tomar decisões mais informadas com base em insights confiáveis sobre várias empresas e suas respectivas indústrias.

Fonte original

Título: Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation

Resumo: Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs), which are often referred to as Large Language Models (LLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baselines for multi-label text classification. This is applied to the challenging task of classifying companies into an investment firm's proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification is frequently reported to outperform task-specific classification heads, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the label taxonomy; (b) The fine-tuning process lacks permutation invariance and is sensitive to the order of the provided labels; (c) The model provides binary decisions rather than appropriate confidence scores. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM's language head with a classification head, which is referred to as Prompt Tuned Embedding Classification (PTEC). This improves performance significantly, while also reducing computational costs during inference. In our industrial application, the training data is skewed towards well-known companies. We confirm that the model's performance is consistent across both well-known and less-known companies. Our overall results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities. We release our codebase and a benchmarking dataset at https://github.com/EQTPartners/PTEC.

Autores: Valentin Leonhard Buchner, Lele Cao, Jan-Christoph Kalo, Vilhelm von Ehrenheim

Última atualização: 2024-04-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.12075

Fonte PDF: https://arxiv.org/pdf/2309.12075

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes