Presentiamo il Dataset SynChart per la comprensione dei grafici
Un nuovo set di dati pensato per migliorare i modelli per capire grafici e visualizzazione dei dati.
― 4 leggere min
Indice
Negli ultimi anni, l'uso dei modelli di linguaggio, specialmente le ultime versioni, ha attirato molta attenzione. Questi modelli possono aiutare a creare Etichette e dati per compiti che coinvolgono più di un tipo di informazione, come i Grafici. Però, non è ancora chiaro come costruire modelli avanzati a partire da modelli di linguaggio di base. Questo articolo parla di come creare un dataset completo focalizzato sulla comprensione dei grafici e di come questo dataset possa aiutare a formare modelli competitivi.
Creazione del Dataset SynChart
Per addestrare un Modello che capisca bene i grafici, abbiamo bisogno di un dataset ampio e vario. Questo dataset, chiamato SynChart, include circa 4 milioni di immagini di grafici diversi e oltre 75 milioni di etichette dettagliate. Le etichette forniscono informazioni come tabelle di dati, codice, descrizioni e coppie di domande e risposte collegate a ciascun grafico.
Il Processo di Creazione del Dataset
Creare questo dataset ha richiesto diversi passaggi:
Identificazione dei Tipi di Grafici: Diversi grafici servono a scopi diversi. Il nostro primo passo è stato scoprire quali sono i tipi di grafico più comuni. Abbiamo esaminato vari dataset esistenti e etichettato le immagini. Questo ci ha aiutato a concentrarci sui tipi di grafici più popolari.
Generazione delle Tabelle di Dati: Una volta identificati i tipi di grafici, abbiamo creato tabelle di dati diverse che rispecchiassero scenari reali. Questo per garantire che i dati siano pertinenti e utili.
Creazione delle Immagini dei Grafici: Dopo aver generato le tabelle di dati, dovevamo creare i grafici veri e propri. Abbiamo usato vari strumenti di coding progettati per disegnare grafici e abbiamo sviluppato codice per produrre le immagini dei grafici. Questo passaggio ha incluso anche la correzione di eventuali errori nel codice per assicurarsi che i grafici venissero visualizzati correttamente.
Creazione di Domande e Risposte: Infine, abbiamo generato un insieme di domande e risposte per ciascun grafico. Alcune domande erano dirette, richiedendo una risposta breve, mentre altre necessitavano di un ragionamento più profondo.
Addestramento del Modello
Una volta avuto il dataset, abbiamo addestrato un modello specifico per lavorare con i grafici. Questo modello combina due componenti principali:
- Un grande modello di linguaggio che aiuta nella comprensione e generazione di testo e codice.
- Un encoder visivo che elabora le immagini dei grafici.
Abbiamo svolto l'addestramento in due fasi: pre-addestramento e post-addestramento. Durante il pre-addestramento, abbiamo utilizzato le annotazioni iniziali che includevano tabelle di dati e descrizioni. Nella fase di post-addestramento, ci siamo concentrati sull'uso delle domande e risposte generate in precedenza.
Risultati e Performance
Il modello addestrato utilizzando il dataset SynChart ha mostrato risultati eccezionali nei test progettati per valutare le sue capacità di comprensione dei grafici, quasi eguagliando le performance di uno dei migliori modelli esistenti. Questa performance indica che il nostro dataset è efficace per addestrare modelli in questo campo.
Abbiamo condotto diversi test per analizzare come i vari componenti del dataset abbiano contribuito al successo del modello. I risultati hanno mostrato che la qualità e la varietà dei dati giocano ruoli significativi nel migliorare le prestazioni del modello.
Sfide e Soluzioni
Costruire questo dataset non è stato senza sfide. Abbiamo dovuto affrontare problemi come la raccolta di un'ampia gamma di immagini di grafici e l'ottenimento di etichette di alta qualità. Ecco come abbiamo affrontato queste sfide:
Diversità dei Dati: Dovevamo assicurarci che il dataset coprisse vari tipi di grafico. Attingendo da molteplici fonti e utilizzando anche strumenti per sintetizzare nuovi grafici, siamo riusciti a raggiungere una diversità adeguata.
Qualità delle Etichette: Era fondamentale avere etichette di alta qualità associate a ciascuna immagine di grafico. Abbiamo implementato un processo di revisione approfondito per controllare l'accuratezza delle etichette e migliorarle quando necessario.
Conclusione
Lo sviluppo del dataset SynChart rappresenta un passo importante per migliorare la nostra capacità di creare e addestrare modelli che comprendono i dati dei grafici. Syntetizzando i dati dai modelli di linguaggio, abbiamo creato un dataset su larga scala che soddisfa non solo le esigenze di addestramento, ma apre anche la porta a ulteriori ricerche e progressi in questo dominio.
Guardando al futuro, miriamo ad ampliare il dataset incorporando più tipi di grafici e filtrando meglio le immagini per migliorare la qualità complessiva. Questo aiuterà a creare modelli ancora più capaci che possano servire in varie applicazioni legate alla visualizzazione e analisi dei dati.
Concentrandoci su applicazioni pratiche e continuo perfezionamento, speriamo di contribuire ulteriormente al campo dell'apprendimento automatico e della scienza dei dati.
Titolo: SynChart: Synthesizing Charts from Language Models
Estratto: With the release of GPT-4V(O), its use in generating pseudo labels for multi-modality tasks has gained significant popularity. However, it is still a secret how to build such advanced models from its base large language models (LLMs). This work explores the potential of using LLMs alone for data generation and develop competitive multi-modality models focusing on chart understanding. We construct a large-scale chart dataset, SynChart, which contains approximately 4 million diverse chart images with over 75 million dense annotations, including data tables, code, descriptions, and question-answer sets. We trained a 4.2B chart-expert model using this dataset and achieve near-GPT-4O performance on the ChartQA task, surpassing GPT-4V.
Autori: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li
Ultimo aggiornamento: Sep 24, 2024
Lingua: English
URL di origine: https://arxiv.org/abs/2409.16517
Fonte PDF: https://arxiv.org/pdf/2409.16517
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.