Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas

Priorizando Modelos Tabulares Grandes em Aprendizado de Máquina

Importância de focar em dados tabulares para avanços em machine learning.

― 7 min ler


Modelos TabularesModelos TabularesPrecisam de Atençãoprogredir.Focar em dados tabulares é crucial pra
Índice

Recentemente, rolaram várias novidades empolgantes em machine learning, principalmente com modelos que trabalham com texto e imagens. Esses modelos têm recebido muita atenção e recursos. Mas tem outra área importante que precisa de mais foco: Dados Tabulares. Apesar de serem o tipo principal de dado em muitos campos, não têm recebido bastante atenção na pesquisa. Este artigo defende que a gente deveria priorizar a construção de modelos grandes para dados tabulares, que chamamos de Large Tabular Models (LTMs).

O Que São Modelos Fundacionais Tabulares?

Modelos Fundacionais (FMs) são modelos grandes que são treinados em dados amplos. Eles são adaptáveis, ou seja, podem ser ajustados para várias tarefas. Enquanto existem muitos exemplos de sucesso de FMs para texto e imagens, quase não existem para dados tabulares. Dados tabulares estão em todo lugar, desde registros de saúde até dados financeiros, e são cruciais para muitas indústrias. Construir LTMs pode potencialmente mudar a forma como lidamos com dados tabulares e melhorar pesquisas e aplicações em vários campos.

A Importância dos Dados Tabulares

Dados tabulares são comumente encontrados em diferentes setores, como saúde, finanças e políticas públicas. Seu uso amplo torna essencial para entender problemas complexos e encontrar soluções. No entanto, apesar de sua importância, o processamento de dados tabulares tem ficado para trás em relação a outras áreas de machine learning. Os métodos atuais costumam depender de modelos tradicionais que podem não funcionar tão bem quanto abordagens modernas.

Desafios Únicos nos Dados Tabulares

Dados tabulares trazem seus próprios desafios. Diferente de texto e imagens, que têm formas mais intuitivas de serem analisadas, dados tabulares podem ser mais difíceis de interpretar. Isso inclui lidar com valores ausentes, tipos de dados variados e a necessidade de conhecimento específico. Além disso, conjuntos de dados em larga escala para dados tabulares têm sido difíceis de conseguir, o que atrasou o progresso nessa área.

Benefícios Potenciais dos Large Tabular Models

Os Large Tabular Models poderiam ter uma ampla gama de benefícios. Eles poderiam ajudar a automatizar tarefas de Ciência de Dados, limpar conjuntos de dados e fornecer formas melhores de analisar relacionamentos complexos nos dados. Por exemplo, com o modelo certo, poderíamos gerar Dados Sintéticos que não só são úteis para treinar outros modelos, mas também protegem a privacidade e reduzem preconceitos. As possibilidades de uso dos LTMs são inúmeras e se estendem a vários campos da ciência e tecnologia.

Por Que os LTMs São Ignorados

Existem várias razões pelas quais os LTMs não foram priorizados:

  1. Desafios de Dados: Muitos pesquisadores têm dificuldade em encontrar conjuntos de dados grandes e limpos para treinar esses modelos.
  2. Complexidade: Analisar dados tabulares pode ser complexo, e novos modelos podem não superar consistentemente os existentes, o que pode desestimular pesquisas.
  3. Percepção Humana: A galera tende a achar dados de texto e imagem mais relacionáveis e mais fáceis de avaliar. Isso pode levar a uma falta de interesse por dados tabulares.

A Necessidade de Mudança

Mudar nosso foco para modelos fundacionais tabulares poderia abrir novas avenidas para pesquisa e aplicações. Aqui estão algumas razões:

  1. Uso Amplo: Dados tabulares estão presentes em vários campos, tornando-se uma área prática para pesquisa.
  2. Desafios Não Resolvidos: Existem muitas questões não resolvidas no processamento de dados tabulares que os pesquisadores podem enfrentar, o que pode levar a avanços significativos.
  3. Potencial de Escala: Ao contrário dos domínios de texto e imagem onde os recursos estão se tornando escassos, desenvolver LTMs é viável para muitos pesquisadores devido a custos computacionais mais baixos.

Construindo Large Tabular Models

Para criar LTMs eficazes, precisamos ter em mente alguns fatores:

Adaptando-se a Diferentes Tipos de Dados

Os LTMs devem ser capazes de lidar com vários tipos e estruturas de dados comumente encontrados em tabelas. Isso inclui valores numéricos, categorias e formatos de data e hora.

Aprendendo em Vários Conjuntos de Dados

Para maximizar sua utilidade, os LTMs devem ser treinados em conjuntos de dados diversos. Isso permitirá que eles aprendam de vários contextos e melhorem sua generalização.

Incorporando Informação Contextual

Entender dados tabulares muitas vezes requer contexto, como saber o que cada coluna significa. Os LTMs devem aproveitar essa informação contextual para melhorar seu desempenho.

Flexibilidade na Estrutura de Dados

A ordem das colunas em tabelas pode ser arbitrária, e os LTMs devem ser projetados para funcionar independentemente de como os dados são estruturados.

Desenvolvimentos Atuais em LTMs

A pesquisa sobre LTMs ainda está em fase inicial, mas existem algumas direções promissoras:

Aprendizado de Representação

Estão sendo feitos esforços para usar transformers, que foram bem-sucedidos em outros domínios, para entender e analisar tabelas melhor. Alguns pesquisadores adaptaram o BERT, um modelo de texto popular, para dados tabulares.

Aprendizado Supervisionado

Embora os métodos tradicionais de aprendizado supervisionado possam não ser flexíveis o suficiente, os pesquisadores estão experimentando como usar melhor os LTMs nessa área. Isso inclui ajustar os LTMs para tarefas específicas ou usá-los para aprendizado de poucos exemplos.

Aprendizado Generativo

Gerar dados tabulares sintéticos ainda é um campo em desenvolvimento. Algumas abordagens se concentram em usar modelos existentes para criar novos conjuntos de dados úteis, embora essa área precise de mais exploração.

Aplicações dos Large Tabular Models

As aplicações potenciais dos LTMs são amplas. Aqui estão algumas áreas chave onde os LTMs poderiam ter um impacto significativo:

Melhorando Práticas de Ciência de Dados

Os LTMs poderiam ajudar cientistas de dados em tarefas como limpar dados, encontrar conjuntos de dados relevantes e realizar análises avançadas. Isso poderia agilizar fluxos de trabalho e aumentar a produtividade geral.

Apoio à Pesquisa Científica

Pesquisadores muitas vezes precisam combinar dados de vários estudos para meta-análises. Os LTMs poderiam ajudar a automatizar esse processo, facilitando a harmonização de formatos e garantindo consistência entre conjuntos de dados.

Aumentando Justiça e Representação

Usando os LTMs, poderíamos gerar dados sintéticos para grupos sub-representados, o que poderia melhorar sua representação na pesquisa. Isso poderia ajudar a abordar preconceitos e garantir que as descobertas sejam aplicáveis a populações mais amplas.

Facilitando Privacidade e Compartilhamento de Dados

Os LTMs podem ser usados para criar conjuntos de dados sintéticos que se assemelham a dados reais sem comprometer a privacidade. Isso permitiria que pesquisadores compartilhassem dados enquanto minimizam riscos.

Desafios à Frente

Apesar do potencial significativo dos LTMs, existem vários desafios que precisam ser enfrentados:

Qualidade e Diversidade dos Dados

Garantir que os conjuntos de dados usados para treinar os LTMs sejam diversos, limpos e representativos do mundo real é crucial. Sem dados de alta qualidade, a eficácia dos LTMs será limitada.

Métodos de Avaliação

Avaliar o desempenho dos LTMs pode ser complicado, especialmente à medida que as métricas para sucesso ainda estão sendo desenvolvidas. Pesquisadores precisam estabelecer referências confiáveis para medir a eficácia dos LTMs com precisão.

Abordando Preconceitos

Como qualquer modelo, os LTMs podem, inadvertidamente, perpetuar preconceitos existentes presentes em seus dados de treinamento. A pesquisa precisa incluir métodos para identificar e mitigar esses preconceitos.

Conclusão

Os Large Tabular Models apresentam uma oportunidade empolgante para pesquisa e aplicação no processamento de dados tabulares. À medida que continuamos a explorar as capacidades e desafios desses modelos, é crucial para a comunidade de pesquisa redirecionar um pouco de seu foco para essa área. Os benefícios potenciais são vastos e podem levar a novas descobertas em muitos campos, aprimorando nossa capacidade de entender e usar dados de forma eficaz. Priorizando os LTMs, poderíamos avançar significativamente o estado do machine learning e seu impacto na sociedade.

Fonte original

Título: Why Tabular Foundation Models Should Be a Research Priority

Resumo: Recent text and image foundation models are incredibly impressive, and these models are attracting an ever-increasing portion of research resources. In this position piece we aim to shift the ML research community's priorities ever so slightly to a different modality: tabular data. Tabular data is the dominant modality in many fields, yet it is given hardly any research attention and significantly lags behind in terms of scale and power. We believe the time is now to start developing tabular foundation models, or what we coin a Large Tabular Model (LTM). LTMs could revolutionise the way science and ML use tabular data: not as single datasets that are analyzed in a vacuum, but contextualized with respect to related datasets. The potential impact is far-reaching: from few-shot tabular models to automating data science; from out-of-distribution synthetic data to empowering multidisciplinary scientific discovery. We intend to excite reflections on the modalities we study, and convince some researchers to study large tabular models.

Autores: Boris van Breugel, Mihaela van der Schaar

Última atualização: 2024-06-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.01147

Fonte PDF: https://arxiv.org/pdf/2405.01147

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes