Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

La lotta dell'IA con l'interpretazione dei grafici nel business

Esaminare come i modelli di intelligenza artificiale leggono e interpretano grafici etichettati e non etichettati.

― 5 leggere min


L'IA fa fatica a leggereL'IA fa fatica a leggerei graficipreciso.faticano a leggere i grafici in modoI modelli di intelligenza artificiale
Indice

L'intelligenza artificiale (IA) è diventata un argomento caldo nel mondo degli affari, specialmente quando si tratta di leggere e comprendere le informazioni presentate in slide. Questo articolo analizza quanto siano bravi due modelli di IA, GPT-4o e Gemini Flash, a leggere grafici e tabelle comunemente trovati nelle presentazioni aziendali. Questi modelli sono progettati per interpretare immagini ed estrarre dati rilevanti. Tuttavia, ci sono domande su quanto possano farlo con precisione, soprattutto con informazioni visive complesse.

Cosa Sono i Grafici Etichettati e Non Etichettati?

Prima di tutto, chiaramosi le idee su cosa siano i grafici etichettati e non etichettati.

  • Grafici Etichettati: Questi sono grafici dove i punti dati sono chiaramente contrassegnati. Per esempio, un grafico a barre che mostra le vendite di diversi prodotti, con gli importi delle vendite stampati sopra ogni barra.

  • Grafici Non Etichettati: Questi grafici non hanno i punti dati esplicitamente segnati. Invece, gli utenti devono stimare i valori in base alla posizione degli elementi sul grafico. Ad esempio, un grafico a linee che mostra le tendenze di crescita negli anni senza numeri esatti indicati.

Valutazione delle Prestazioni dell'IA

L'obiettivo della valutazione era vedere quanto bene questi modelli di IA potessero rispondere a domande specifiche sui dati mostrati in questi grafici. Le domande erano pensate per essere semplici e i modelli non dovevano fare matematica complicata-solo leggere numeri e interpretare dati.

Quanto Sono Precisi i Modelli con Grafici Etichettati?

In un test che coinvolgeva diversi grafici etichettati, si è scoperto che i modelli di IA hanno fatto più fatica del previsto. Entrambi i modelli sono stati valutati su vari tipi di grafici etichettati, da quelli semplici come i grafici a barre a quelli più complessi come i grafici a cascata.

Quando è stato chiesto di identificare punti dati specifici nei grafici etichettati, GPT-4o è riuscito a leggere correttamente circa 8 grafici su 15 perfettamente. D'altra parte, Gemini Flash ha fatto leggermente peggio, leggendo correttamente solo 7 grafici. Tuttavia, quando sbagliavano, gli errori erano spesso dovuti a malintesi sui numeri o a scambi di etichette. Ad esempio, in alcune occasioni, GPT-4o ha scambiato un '3' per un '8', portando a risposte errate. Allo stesso modo, Gemini Flash ha avuto difficoltà a capire il contesto delle domande e a volte ha selezionato i dati sbagliati per rispondere.

Sfide con i Grafici Non Etichettati

Le prestazioni di questi modelli di IA sono state ancora peggiori quando si trattava di grafici non etichettati. Qui, i modelli dovevano indovinare i valori in base a dove si trovavano i punti dati rispetto agli assi. In questo scenario, i tassi di errore erano allarmantemente alti. GPT-4o ha avuto un tasso di errore del 83%, mentre Gemini Flash ha fatto leggermente meglio con il 79%. Questo significa che i modelli spesso fornivano risposte lontane dai valori corretti, portando a interpretazioni molto imprecise.

Ad esempio, se un grafico mostrava dati economici senza numeri specifici, entrambi i modelli fallivano frequentemente nel fornire anche solo stime approssimative, deviando spesso di più della metà del valore reale. Questo indica un notevole limite nella loro capacità di interpretare visivi complessi dove i punti dati precisi non sono contrassegnati.

Tipi di Domande Poste

Per valutare la loro comprensione, è stata posta una serie di domande ai modelli di IA. Queste includevano:

  1. Identificare un punto dati specifico sul grafico.
  2. Trovare il punto dati più grande o più piccolo.
  3. Contare il numero di punti dati presenti.

Queste domande erano semplici e miravano a testare la capacità dell'IA di leggere e interpretare i dati senza necessità di abilità matematiche approfondite. La precisione dei modelli è stata valutata attraverso due metriche principali: tasso di corrispondenza per i grafici etichettati e errore percentuale medio assoluto per i grafici non etichettati.

Sintesi dei Risultati

Dopo aver testato entrambi i modelli di IA su una varietà di grafici e tabelle, è emerso chiaro che, mentre mostrano alcune capacità avanzate, hanno anche notevoli carenze.

Per i grafici etichettati, il tasso di errore si è mantenuto attorno al 15% in media, che è già un dato preoccupante per applicazioni aziendali dove la precisione è cruciale. In termini più semplici, se un'azienda si affidasse esclusivamente a questi modelli per estrarre dati dalle slide, potrebbe aspettarsi di incorrere in problemi abbastanza spesso.

Con i grafici non etichettati, la situazione era ancora peggiore. I modelli spesso superavano il 100% di errore nelle loro stime per visivi complessi. Questo significa che non solo sbagliavano i valori corretti, ma fornivano anche stime completamente inaccurate.

Conclusione

Sebbene GPT-4o e Gemini Flash mostrino potenziale nel gestire grandi quantità di dati e interpretazione visiva, attualmente non riescono a leggere e interpretare con precisione i grafici nelle presentazioni aziendali. Le loro prestazioni sono incoerenti, specialmente con grafici complessi e non etichettati.

Gli utenti aziendali dovrebbero essere consapevoli che, mentre questi strumenti di IA possono assistere nel riassumere e interpretare grafici, non sono ancora abbastanza affidabili da sostituire il controllo umano. Per decisioni importanti basate su dati, è più sicuro avere un umano che ricontrolli le informazioni estratte dalle presentazioni. Man mano che questi modelli si sviluppano, le loro capacità potrebbero migliorare, ma per ora hanno ancora molta strada da fare per raggiungere la precisione adatta per applicazioni aziendali critiche.

Fonte originale

Titolo: ChatBCG: Can AI Read Your Slide Deck?

Estratto: Multimodal models like GPT4o and Gemini Flash are exceptional at inference and summarization tasks, which approach human-level in performance. However, we find that these models underperform compared to humans when asked to do very specific 'reading and estimation' tasks, particularly in the context of visual charts in business decks. This paper evaluates the accuracy of GPT 4o and Gemini Flash-1.5 in answering straightforward questions about data on labeled charts (where data is clearly annotated on the graphs), and unlabeled charts (where data is not clearly annotated and has to be inferred from the X and Y axis). We conclude that these models aren't currently capable of reading a deck accurately end-to-end if it contains any complex or unlabeled charts. Even if a user created a deck of only labeled charts, the model would only be able to read 7-8 out of 15 labeled charts perfectly end-to-end. For full list of slide deck figures visit https://www.repromptai.com/chat_bcg

Autori: Nikita Singh, Rob Balian, Lukas Martinelli

Ultimo aggiornamento: 2024-07-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.12875

Fonte PDF: https://arxiv.org/pdf/2407.12875

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili