Avançando o Aprendizado Multimodal pra Previsões Melhores
Uma nova estrutura integra dados estruturados e não estruturados pra melhorar a precisão.
― 7 min ler
Índice
No mundo da tecnologia, a gente costuma juntar informações de diferentes fontes, como texto, imagens e Dados Estruturados (tipo números e tabelas). Esse processo se chama Aprendizado Multimodal. Os métodos tradicionais têm funcionado bem com Dados Não Estruturados, como texto e imagens, mas não deram muita atenção aos dados estruturados, que são importantes em muitas situações do dia a dia.
Por exemplo, na saúde, os registros dos pacientes muitas vezes contêm medições clínicas junto com imagens médicas e anotações. Da mesma forma, no varejo, dados de vendas passadas são combinados com descrições dos produtos para fazer previsões melhores. Com o crescimento do uso da tecnologia em nuvem e sensores, a quantidade de dados estruturados disponíveis em várias aplicações também aumentou, tornando essencial achar jeitos de trabalhar efetivamente com dados estruturados e não estruturados juntos.
O Framework
Pra resolver esse problema, a gente apresenta um novo framework que permite o aprendizado e processamento de dados estruturados, imagens e texto ao mesmo tempo. Esse framework combina informações dos três tipos de dados e consegue lidar com situações em que alguns tipos de dados estão faltando. O objetivo é aprender representações melhores dos dados, pra que o modelo consiga fazer previsões mais precisas em tarefas do mundo real.
O framework é composto por três partes principais: codificadores separados para cada tipo de dado (linguagem, imagem e dados estruturados), um codificador de fusão que combina as informações e algumas estratégias de treinamento. O codificador de fusão permite que diferentes tipos de dados interajam e compartilhem informações, capturando relações entre eles.
Processo de Aprendizado
O processo de aprendizado começa com o pré-treinamento do modelo em grandes conjuntos de dados não rotulados. Durante essa fase, o modelo aprende a preencher informações faltando e prever partes dos dados que foram ocultadas ou alteradas. Esse treinamento envolve o uso de várias técnicas que focam em aprender características de tipos únicos de dados (unimodal) e múltiplos tipos de dados juntos (multimodal).
O modelo usa vários métodos para lidar com os desafios que os dados faltando trazem e garantir que consiga aprender de forma eficaz. Por exemplo, se certas características não puderem ser medidas, o modelo usa informações de características disponíveis pra fazer suposições educadas sobre as que estão faltando. Isso ajuda o modelo a se tornar mais robusto e adaptável em situações reais.
Aplicações em Saúde e Varejo
Pra testar o framework, aplicamos ele em duas situações do mundo real: prever taxas de mortalidade hospitalar e analisar avaliações de produtos.
No cenário da saúde, o modelo foi treinado com um conjunto de dados que inclui medições clínicas feitas durante a internação dos pacientes na Unidade de Terapia Intensiva (UTI). Também incluiu anotações clínicas feitas pela equipe médica e imagens de raio-X tiradas durante esse período. O objetivo era prever se um paciente sobreviviria à internação com base nos dados disponíveis.
No cenário do varejo, o modelo analisou avaliações de produtos coletadas ao longo de vários anos. Ele tinha como meta prever a média de notas que um produto receberia com base na sua descrição, números de vendas passadas e feedback dos clientes.
Esse framework foi bem-sucedido em ambos os cenários, mostrando sua capacidade de trabalhar com vários tipos de dados e produzir previsões confiáveis.
Principais Características do Framework
Um dos principais destaques desse framework é a sua capacidade de lidar com dados faltando. Em muitas aplicações do mundo real, é comum encontrar situações onde nem todos os tipos de dados estão disponíveis. Por exemplo, a história médica de um paciente pode não incluir todas as medições relevantes, ou uma avaliação de produto pode faltar certos detalhes. O framework foi projetado pra aprender com esses conjuntos de dados incompletos e ainda assim produzir resultados precisos.
Outro aspecto importante do framework é seu foco em aprendizado de representações. Ao combinar dados de diferentes fontes, o modelo aprende mais sobre as relações entre diferentes tipos de informação. Esse entendimento pode levar a decisões mais informadas e melhor desempenho em várias tarefas.
Comparação com Outros Métodos
Quando a gente comparou esse framework com métodos tradicionais da área, ele se destacou em relação a muitas técnicas existentes. Em especial, quando aplicado ao cenário da saúde, modelos tradicionais que dependiam de tipos de dados únicos tiveram dificuldade em alcançar a mesma precisão que o nosso framework. Isso mostra a grande vantagem de incorporar dados estruturados, textuais e visuais juntos.
Técnicas de Treinamento
As técnicas de treinamento usadas nesse framework são cruciais pra sua eficácia. O framework utiliza uma estratégia única de máscara durante o treinamento, que envolve ocultar partes dos dados de entrada e pedir pro modelo prever essas partes que estão faltando. Isso ajuda o modelo a aprender características significativas dos dados, melhorando sua capacidade de generalizar pra novas situações.
O modelo usa auto-supervisão, o que significa que ele pode aprender com dados não rotulados sem precisar de uma orientação explícita. Essa característica permite que o modelo aproveite grandes quantidades de dados que muitas vezes estão disponíveis na prática.
Resultados dos Experimentos
Nos experimentos realizados, o framework alcançou um sucesso notável. Para a tarefa de saúde, ao comparar o framework com métodos tradicionais, demonstrou um aumento significativo na precisão. No cenário do varejo, o framework também mostrou melhorias significativas, superando modelos de referência que dependiam principalmente de dados não estruturados ou estruturados isoladamente.
A capacidade do framework de aprender com dados faltando foi particularmente evidente no experimento de saúde. Mesmo com uma quantidade considerável de dados faltando, o framework ainda conseguiu entregar previsões precisas, mostrando sua robustez.
Oportunidades Perdidas em Abordagens Existentes
Muitos modelos existentes têm limitações quando se trata de trabalhar com dados estruturados e não estruturados. Métodos tradicionais tendem a focar em um tipo de dado por vez, o que pode resultar em desempenho subótimo.
Por exemplo, alguns modelos tentaram converter dados estruturados em formato de texto pra que pudessem ser processados junto com outros tipos de dados. No entanto, essa abordagem muitas vezes falha em capturar a essência total dos dados estruturados, levando a previsões menos informadas.
Direções Futuras
O desenvolvimento desse framework abre portas pra muitas oportunidades futuras. Primeiro, melhorar a capacidade de lidar com tipos de dados ainda mais complexos, como áudio e vídeo, poderia aprimorar ainda mais previsões e análises em várias áreas.
Além disso, pra aplicações específicas como medicina personalizada ou marketing direcionado, o framework poderia ser adaptado pra considerar resultados com base em preferências dos usuários ou histórias individuais dos pacientes, levando a resultados otimizados.
Por fim, à medida que o campo do aprendizado multimodal continua a crescer, haverá oportunidades de refinar e melhorar ainda mais as técnicas de treinamento, permitindo que os modelos aprendam de forma mais eficaz com os dados que encontram.
Conclusão
No geral, o framework desenvolvido para aprendizado multimodal representa um avanço significativo na área. Ao combinar efetivamente dados estruturados, imagens e texto, ele oferece uma abordagem abrangente pra aprender com fontes de dados diversas. O sucesso do framework em cenários de saúde e varejo demonstra sua versatilidade e robustez, abrindo caminho pra futuros desenvolvimentos em aplicações multimodais.
Ao abordar os desafios dos dados faltando e focar em aprendizado de representações, o framework tem um grande potencial pra melhorar a tomada de decisões em muitas situações do mundo real. À medida que o aprendizado multimodal continua a evoluir, as ideias adquiridas a partir desse trabalho podem levar a novas descobertas em como interagimos e aprendemos com a rica tapeçaria de dados que temos à disposição.
Título: LANISTR: Multimodal Learning from Structured and Unstructured Data
Resumo: Multimodal large-scale pretraining has shown impressive performance for unstructured data such as language and image. However, a prevalent real-world scenario involves structured data types, tabular and time-series, along with unstructured data. Such scenarios have been understudied. To bridge this gap, we propose LANISTR, an attention-based framework to learn from LANguage, Image, and STRuctured data. The core of LANISTR's methodology is rooted in \textit{masking-based} training applied across both unimodal and multimodal levels. In particular, we introduce a new similarity-based multimodal masking loss that enables it to learn cross-modal relations from large-scale multimodal data with missing modalities. On two real-world datasets, MIMIC-IV (from healthcare) and Amazon Product Review (from retail), LANISTR demonstrates remarkable improvements, 6.6\% (in AUROC) and 14\% (in accuracy) when fine-tuned with 0.1\% and 0.01\% of labeled data, respectively, compared to the state-of-the-art alternatives. Notably, these improvements are observed even with very high ratio of samples (35.7\% and 99.8\% respectively) not containing all modalities, underlining the robustness of LANISTR to practical missing modality challenge. Our code and models will be available at https://github.com/google-research/lanistr
Autores: Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister
Última atualização: 2024-04-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.16556
Fonte PDF: https://arxiv.org/pdf/2305.16556
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ctan.org/pkg/axessibility?lang=en
- https://blog.research.google/2024/03
- https://www.springer.com/gp/computer-science/lncs
- https://github.com/google-research/lanistr
- https://auto.gluon.ai/
- https://physionet.org/content/mimiciv/view-license/2.2/
- https://physionet.org/content/mimiciv/2.2/
- https://nijianmo.github.io/amazon/index.html