Valutazione dei modelli linguistici per la mappatura degli obiettivi di sviluppo sostenibile
Uno studio confronta l'efficienza dei modelli di linguaggio nel mappare la ricerca agli SDG.
― 6 leggere min
I modelli di linguaggio ampi (LLMs) stanno cambiando il modo in cui comprendiamo e utilizziamo la tecnologia per generare testo simile a quello umano. Questi modelli sono ora ampiamente disponibili, specialmente le versioni Open-source, che offrono agli utenti un modo più sicuro di lavorare senza dover condividere i propri dati con aziende terze. Usando questi modelli in locale, individui e organizzazioni possono mantenere i loro dati privati e adattare i modelli alle loro esigenze specifiche.
Questo studio analizza quanto bene diversi modelli di linguaggio performano nel mappare le pubblicazioni ai 17 Obiettivi di Sviluppo Sostenibile (SDGs). Il modello principale usato per il confronto è GPT-4o, un modello a pagamento molto noto. Abbiamo anche esaminato diversi modelli open-source, tra cui Mixtral, LLaMA 2, LLaMA 3, Gemma e Qwen2, oltre a una versione più piccola di GPT-4o chiamata GPT-4o-mini. Poiché il compito di mappatura degli SDG può coinvolgere più obiettivi per ogni pubblicazione, abbiamo utilizzato metriche come F1 Score, Precisione e Richiamo per misurare le performance dei modelli. Queste metriche ci aiutano a capire quanto bene ciascun modello riesca a identificare e assegnare correttamente gli SDG alle pubblicazioni.
Nel nostro esperimento, abbiamo selezionato casualmente 1.000 pubblicazioni da una banca di ricerca. Ogni modello ha ricevuto lo stesso prompt per eseguire il compito di mappatura degli SDG, che comportava collegare ogni pubblicazione ai diversi SDG e spiegare queste connessioni. L'obiettivo era vedere come i modelli open-source si confrontano con i modelli a pagamento in questo contesto.
Gli LLMs apprendono da una vasta quantità di informazioni trovate in luoghi come libri, articoli e siti web. Si basano su reti neurali profonde che consentono loro di gestire compiti linguistici complessi. Tuttavia, molti modelli noti, come ChatGPT di OpenAI, LaMDA di Google e Turing-NLG di Microsoft, non sono disponibili gratuitamente e a volte richiedono abbonamenti. Questo può sollevare preoccupazioni riguardo alla privacy e alla sicurezza dei dati, soprattutto per informazioni sensibili. Perciò, i LLM open-source che possono essere utilizzati su macchine locali sono sempre più fondamentali per permettere agli utenti di mantenere il controllo sui propri dati.
Nel nostro studio, abbiamo utilizzato i titoli e i riassunti di 1.000 pubblicazioni come input per i modelli per mappare gli SDGs. Il prompt che abbiamo progettato chiedeva ai modelli di analizzare la pubblicazione, determinare a quali SDG si riferisce e fornire un livello di fiducia insieme a una motivazione per ciascuna assegnazione. Abbiamo fatto in modo che ogni modello ricevesse lo stesso prompt per mantenere l'equità nella valutazione.
Per valutare le loro performance, abbiamo raccolto i risultati di tutti e sette i modelli e li abbiamo confrontati. GPT-4o ha servito come baseline poiché i suoi risultati sono ampiamente rispettati. Abbiamo organizzato i risultati in un formato strutturato che ci ha permesso di confrontare le performance dei modelli in modo coerente.
Il processo di valutazione ha coinvolto metriche che aiutano a indicare quanto bene ogni modello performa nell'assegnare gli SDG. Poiché il compito riguarda il posizionamento delle pubblicazioni in più categorie, ci siamo concentrati su metriche come F1 score, precisione e richiamo. Queste ci aiutano a vedere quanto accuratamente un modello assegna gli SDG e quanti degli assegnamenti corretti mancano.
Nei nostri risultati, abbiamo notato che alcuni modelli, come LLaMA 2 e Gemma, hanno ancora lacune evidenti nelle loro performance rispetto ad altri. Nel frattempo, modelli come GPT-4o-mini, LLaMA 3 e Qwen2 hanno performato relativamente bene, mostrando modelli simili attraverso vari livelli di fiducia. I risultati hanno indicato che LLaMA 2 e Gemma sono meno efficaci per il compito di mappatura degli SDG.
Abbiamo anche registrato il tempo e il costo di esecuzione di ciascun modello, notando che l'uso di modelli a pagamento come GPT-4o comporta costi più elevati rispetto alle alternative open-source gratuite. Ad esempio, il costo di elaborazione di GPT-4o era significativamente superiore a quello di GPT-4o-mini, mentre i modelli più piccoli risultavano più facili da gestire e caricavano più velocemente.
L'output dei modelli è stato valutato in base ai 17 SDG. Ad esempio, quando una pubblicazione veniva analizzata, i modelli fornivano le loro valutazioni per tutti gli obiettivi, compresi i livelli di fiducia. In questo modo, abbiamo garantito una misurazione coerente con un chiaro tracciamento di quale modello performasse meglio nelle diverse circostanze.
Attraverso le visualizzazioni dei risultati, abbiamo potuto vedere come ciascun modello si comportava in diverse impostazioni. L'F1 score si è distinto come una metrica critica per comprendere le performance complessive. I modelli migliori, come GPT-4o-mini e LLaMA 3, hanno mantenuto punteggi più alti in modo costante, mentre modelli come Gemma 2 e LLaMA 2 rimanevano indietro.
Anche la precisione e il richiamo sono stati considerati, aiutandoci a concentrarci su quanto ogni modello sia bravo nelle previsioni di veri positivi rispetto a evitare falsi positivi. Ad esempio, modelli come Mixtral e LLaMA 3 hanno mostrato punteggi di precisione migliori, rendendoli adatti per compiti in cui è cruciale evitare falsi positivi. Nel frattempo, GPT-4o-mini e Qwen2 hanno eccelso nel richiamo, che è essenziale quando perdere un vero positivo potrebbe avere gravi implicazioni.
In generale, utilizzare questi modelli per mappare le pubblicazioni agli SDG ha dimostrato che, mentre alcune alternative open-source mostrano potenziale, hanno ancora molta strada da fare rispetto a modelli a pagamento come GPT-4o. Basandoci sui nostri risultati, GPT-4o-mini si è distinto come un modello che bilancia buone performance con velocità e costo, rendendolo una scelta forte per compiti che richiedono sia richiamo che precisione.
In conclusione, il nostro studio fornisce approfondimenti sull'efficacia di vari modelli di linguaggio nel mappare le pubblicazioni agli Obiettivi di Sviluppo Sostenibile. Sottolinea i vantaggi e le potenziali limitazioni sia dei modelli open-source che di quelli a pagamento, offrendo una guida utile per ricercatori e organizzazioni che desiderano utilizzare gli LLM per i loro progetti. Comprendendo come questi modelli performano, gli utenti possono prendere decisioni informate su quali siano più adatti alle loro esigenze, specialmente nel contesto dei compiti di mappatura degli SDG.
Questi risultati possono aiutare a navigare nel panorama dei modelli di linguaggio disponibili e guidare ricerche future e progetti che puntano a sfruttare il potere dell'IA per affrontare sfide globali attraverso la lente dello sviluppo sostenibile.
Titolo: Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report)
Estratto: The use of large language models (LLMs) is expanding rapidly, and open-source versions are becoming available, offering users safer and more adaptable options. These models enable users to protect data privacy by eliminating the need to provide data to third parties and can be customized for specific tasks. In this study, we compare the performance of various language models on the Sustainable Development Goal (SDG) mapping task, using the output of GPT-4o as the baseline. The selected open-source models for comparison include Mixtral, LLaMA 2, LLaMA 3, Gemma, and Qwen2. Additionally, GPT-4o-mini, a more specialized version of GPT-4o, was included to extend the comparison. Given the multi-label nature of the SDG mapping task, we employed metrics such as F1 score, precision, and recall with micro-averaging to evaluate different aspects of the models' performance. These metrics are derived from the confusion matrix to ensure a comprehensive evaluation. We provide a clear observation and analysis of each model's performance by plotting curves based on F1 score, precision, and recall at different thresholds. According to the results of this experiment, LLaMA 2 and Gemma still have significant room for improvement. The other four models do not exhibit particularly large differences in performance. The outputs from all seven models are available on Zenodo: https://doi.org/10.5281/zenodo.12789375.
Autori: Hui Yin, Amir Aryani, Nakul Nambiar
Ultimo aggiornamento: 2024-08-04 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.02201
Fonte PDF: https://arxiv.org/pdf/2408.02201
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://doi.org/10.5281/zenodo.12789375
- https://openai.com/chatgpt/
- https://blog.google/technology/ai/lamda/
- https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
- https://openai.com/index/hello-gpt-4o/
- https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
- https://huggingface.co/docs/transformers/en/model_doc/mixtral
- https://llama.meta.com/llama2/
- https://llama.meta.com/llama3/
- https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
- https://huggingface.co/Qwen
- https://sdgs.un.org/goals
- https://www.researchgate.net/publication/378758478_IRS-aided_Received_Signal_Strength_Localization_Using_a_Wireless_Sensor_Network