Apresentando o Conjunto de Dados SynChart para Compreensão de Gráficos
Um novo conjunto de dados pra melhorar modelos que entendem gráficos e visualização de dados.
Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li
― 5 min ler
Índice
Nos últimos anos, o uso de Modelos de linguagem, especialmente as versões mais recentes, ganhou muita atenção. Esses modelos podem ajudar a criar Rótulos e dados para tarefas que envolvem mais de um tipo de informação, como Gráficos. No entanto, ainda não está claro como criar modelos avançados a partir de modelos de linguagem básicos. Este artigo discute a criação de um conjunto de dados abrangente focado na compreensão de gráficos e como esse conjunto pode ajudar a treinar modelos competitivos.
Criando o Conjunto de Dados SynChart
Para treinar um modelo que entenda gráficos bem, precisamos de um conjunto de dados grande e variado. Esse conjunto, chamado SynChart, inclui cerca de 4 milhões de imagens de gráficos diferentes e mais de 75 milhões de rótulos detalhados. Os rótulos fornecem informações como tabelas de dados, códigos, descrições e pares de perguntas e respostas vinculados a cada gráfico.
O Processo de Criação do Conjunto de Dados
Criar esse conjunto de dados envolveu várias etapas:
Identificando Tipos de Gráficos: Diferentes gráficos têm diferentes propósitos. Nosso primeiro passo foi descobrir quais são os tipos de gráficos mais comuns. Analisamos vários Conjuntos de dados existentes e rotulamos as imagens. Isso nos ajudou a focar nos tipos de gráficos mais populares.
Gerando Tabelas de Dados: Depois de identificar os tipos de gráficos, criamos tabelas de dados diversas que se assemelham a cenários do mundo real. Isso foi feito para garantir que os dados fossem relevantes e úteis.
Criação de Imagens de Gráficos: Após gerar as tabelas de dados, precisávamos criar os gráficos reais. Usamos várias ferramentas de codificação projetadas para desenhar gráficos e desenvolvemos código para produzir as imagens dos gráficos. Essa etapa também incluiu corrigir erros no código para garantir que os gráficos fossem exibidos corretamente.
Criando Perguntas e Respostas: Por fim, geramos um conjunto de perguntas e respostas para cada gráfico. Algumas perguntas eram diretas, precisando de uma resposta curta, enquanto outras exigiam um raciocínio mais profundo.
Treinando o Modelo
Assim que tivemos o conjunto de dados, treinamos um modelo específico para trabalhar com gráficos. Esse modelo combina dois componentes principais:
- Um grande modelo de linguagem que ajuda a entender e gerar texto e código.
- Um codificador de visão que processa as imagens dos gráficos.
Realizamos o Treinamento em duas fases: pré-treinamento e pós-treinamento. Durante o pré-treinamento, usamos as anotações iniciais que incluíam tabelas de dados e descrições. Na fase de pós-treinamento, focamos em usar as perguntas e respostas geradas antes.
Resultados e Desempenho
O modelo treinado com o conjunto de dados SynChart se saiu excepcionalmente bem em testes projetados para avaliar suas habilidades de compreensão de gráficos, quase igualando o desempenho de um dos melhores modelos existentes. Esse desempenho indica que nosso conjunto de dados é eficaz para treinar modelos nessa área.
Fizemos vários testes para analisar como os diferentes componentes do conjunto de dados contribuíram para o sucesso do modelo. Os resultados mostraram que a qualidade e a variedade dos dados desempenham papéis significativos na melhoria do desempenho do modelo.
Desafios e Soluções
Construir esse conjunto de dados não foi fácil. Tivemos que lidar com problemas como a coleta de uma variedade diversificada de imagens de gráficos e a obtenção de rótulos de alta qualidade. Aqui está como abordamos esses desafios:
Diversidade de Dados: Precisávamos garantir que o conjunto de dados cobrisse vários tipos de gráficos. Ao tirar de múltiplas fontes e também usar ferramentas para sintetizar novos gráficos, conseguimos alcançar uma diversidade adequada.
Qualidade dos Rótulos: Era crucial ter rótulos de alta qualidade associados a cada imagem de gráfico. Implementamos um processo rigoroso de revisão para checar a precisão dos rótulos e melhorar onde fosse necessário.
Conclusão
O desenvolvimento do conjunto de dados SynChart marca um passo importante para aprimorar nossa capacidade de criar e treinar modelos que entendem dados de gráficos. Ao sintetizar dados de modelos de linguagem, criamos um conjunto de dados em grande escala que não só atende às necessidades de treinamento, mas também abre portas para mais pesquisas e avanços nesse domínio.
Olhando para o futuro, planejamos expandir o conjunto de dados incorporando mais tipos de gráficos e filtrando melhor as imagens para melhorar a qualidade geral. Isso ajudará na criação de modelos ainda mais capazes que podem servir em várias aplicações relacionadas à visualização e análise de dados.
Ao focar em aplicações práticas e refinamento contínuo, esperamos contribuir ainda mais para o campo do aprendizado de máquina e ciência de dados.
Título: SynChart: Synthesizing Charts from Language Models
Resumo: With the release of GPT-4V(O), its use in generating pseudo labels for multi-modality tasks has gained significant popularity. However, it is still a secret how to build such advanced models from its base large language models (LLMs). This work explores the potential of using LLMs alone for data generation and develop competitive multi-modality models focusing on chart understanding. We construct a large-scale chart dataset, SynChart, which contains approximately 4 million diverse chart images with over 75 million dense annotations, including data tables, code, descriptions, and question-answer sets. We trained a 4.2B chart-expert model using this dataset and achieve near-GPT-4O performance on the ChartQA task, surpassing GPT-4V.
Autores: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li
Última atualização: 2024-09-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.16517
Fonte PDF: https://arxiv.org/pdf/2409.16517
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.