Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Calcul et langage

Évaluation des modèles de langue pour le mapping des objectifs de développement durable

Une étude compare l'efficacité des modèles de langue à relier la recherche aux ODD.

― 7 min lire


Modèles de langue pour laModèles de langue pour lacartographie des ODDlangage.faiblesses de différents modèles deUne étude révèle les forces et les
Table des matières

Les grands modèles de langage (LLMs) changent notre manière de comprendre et d'utiliser la tech pour générer du texte semblable à du texte humain. Ces modèles sont maintenant largement accessibles, surtout les versions Open-source, qui offrent aux utilisateurs une manière plus sécurisée de travailler sans filer leurs données à des entreprises tierces. En utilisant ces modèles localement, les gens et les organisations peuvent garder leurs données privées et adapter les modèles à leurs besoins spécifiques.

Cette étude examine comment différents modèles de langage s'en sortent pour mapper les publications aux 17 Objectifs de développement durable (ODD). Le modèle principal utilisé pour la comparaison est GPT-4o, un modèle payant bien connu. On a aussi regardé plusieurs modèles open-source, comme Mixtral, LLaMA 2, LLaMA 3, Gemma, et Qwen2, ainsi qu'une version plus petite de GPT-4o appelée GPT-4o-mini. Comme la tâche de mapping des ODD peut impliquer plusieurs objectifs pour chaque publication, on a utilisé des critères comme le Score F1, la Précision et le rappel pour mesurer la performance des modèles. Ces critères nous aident à comprendre à quel point chaque modèle peut identifier et assigner correctement des ODD aux publications.

Dans notre expérience, on a sélectionné aléatoirement 1 000 publications d'une banque de recherche. Chaque modèle a reçu le même prompt pour effectuer la tâche de mapping des ODD, qui consistait à relier chaque publication à différents ODD et à expliquer ces connexions. Le but était de voir comment les modèles open-source se comparent aux modèles payants dans ce contexte.

Les LLMs apprennent à partir d'une énorme quantité d'infos trouvées dans des endroits comme des livres, des articles et des sites web. Ils sont basés sur des réseaux neuronaux profonds qui leur permettent de gérer des tâches linguistiques complexes. Cependant, de nombreux modèles connus, comme ChatGPT d'OpenAI, LaMDA de Google, et Turing-NLG de Microsoft, ne sont pas disponibles gratuitement et viennent parfois avec des frais d'abonnement. Ça peut soulever des préoccupations concernant la vie privée et la sécurité des données, surtout pour des infos sensibles. Donc, les LLMs open-source qui peuvent être utilisés sur des machines locales deviennent de plus en plus cruciaux pour permettre aux utilisateurs de garder le contrôle sur leurs données.

Dans notre étude, on a utilisé les titres et résumés de 1 000 publications comme entrées pour que les modèles les mappent aux ODD. Le prompt qu'on a conçu demandait aux modèles d'analyser la publication, de déterminer à quels ODD elle se rapporte, et de donner un niveau de confiance avec une raison pour chaque attribution. On s'est assuré que chaque modèle recevait le même prompt pour garder l'évaluation équitable.

Pour évaluer leur performance, on a rassemblé les résultats de tous les sept modèles et les a comparés. GPT-4o a servi de référence puisque ses résultats sont largement respectés. On a regroupé les sorties dans un format structuré qui nous a permis de comparer la performance des modèles de manière cohérente.

Le processus d'évaluation impliquait des critères qui aident à indiquer comment chaque modèle s'en sort dans l'attribution des ODD. Comme la tâche consiste à placer des publications dans plusieurs catégories, on s'est concentré sur des critères comme le score F1, la précision et le rappel. Cela nous aide à voir à quel point un modèle attribue correctement les ODD et combien d'attributions correctes il manque.

Dans nos résultats, on a remarqué que certains modèles, comme LLaMA 2 et Gemma, ont encore des lacunes de performance par rapport à d'autres. Pendant ce temps, des modèles comme GPT-4o-mini, LLaMA 3, et Qwen2 se sont bien comportés, montrant des schémas similaires à différents niveaux de confiance. Les résultats indiquaient que LLaMA 2 et Gemma sont moins efficaces pour la tâche de mapping des ODD.

On a aussi noté le temps et le coût de fonctionnement de chaque modèle, en constatant que l'utilisation de modèles payants comme GPT-4o coûte plus cher que les alternatives gratuites et open-source. Par exemple, le coût de traitement de GPT-4o était largement supérieur à celui de GPT-4o-mini, tandis que les modèles plus petits étaient plus faciles à gérer et plus rapides à charger.

Les résultats des modèles ont été évalués en fonction des 17 ODD. Par exemple, quand une publication était analysée, les modèles fournissaient leurs évaluations pour tous les objectifs, y compris les niveaux de confiance. De cette manière, on a assuré une mesure cohérente avec un suivi clair de quel modèle a le mieux performé dans quelles circonstances.

Avec des visualisations des résultats, on a pu voir comment chaque modèle s'en sortait dans différents paramètres. Le score F1 s'est démarqué comme un critère clé pour comprendre la performance globale. Les meilleurs modèles, comme GPT-4o-mini et LLaMA 3, ont maintenu des scores plus élevés de manière constante, tandis que des modèles comme Gemma 2 et LLaMA 2 étaient à la traîne.

La précision et le rappel ont aussi été pris en compte, ce qui nous a aidé à nous concentrer sur la capacité de chaque modèle à faire des prédictions vraies positives par rapport à éviter les fausses positives. Par exemple, des modèles comme Mixtral et LLaMA 3 ont montré de meilleurs scores de précision, les rendant adaptés aux tâches où il est crucial d'éviter les fausses positives. Pendant ce temps, GPT-4o-mini et Qwen2 ont excellé en rappel, ce qui est essentiel quand manquer une vraie positive pourrait avoir des conséquences sérieuses.

Globalement, l'utilisation de ces modèles pour mapper des publications aux ODD a montré que, même si certaines alternatives open-source ont du potentiel, elles ont encore un long chemin à parcourir par rapport à des modèles payants comme GPT-4o. D'après nos résultats, GPT-4o-mini s'est distingué comme un modèle qui équilibre bonne performance avec vitesse et coût, ce qui en fait un bon choix pour les tâches nécessitant à la fois rappel et précision.

En conclusion, notre étude offre des aperçus sur l'efficacité de divers modèles de langage pour mapper des publications aux Objectifs de Développement Durable. Elle met en avant les avantages et les limitations potentielles des modèles open-source et payants, offrant un guide utile pour les chercheurs et les organisations qui cherchent à utiliser des LLMs pour leurs projets. En comprenant comment ces modèles performent, les utilisateurs peuvent prendre des décisions éclairées sur ceux qui conviendront le mieux à leurs besoins, particulièrement dans le cadre des tâches de mapping des ODD.

Ces résultats peuvent aider à naviguer dans le paysage des modèles de langage disponibles et guider les recherches et projets futurs qui visent à tirer parti de la puissance de l'IA pour s'attaquer aux défis mondiaux à travers le prisme du développement durable.

Source originale

Titre: Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report)

Résumé: The use of large language models (LLMs) is expanding rapidly, and open-source versions are becoming available, offering users safer and more adaptable options. These models enable users to protect data privacy by eliminating the need to provide data to third parties and can be customized for specific tasks. In this study, we compare the performance of various language models on the Sustainable Development Goal (SDG) mapping task, using the output of GPT-4o as the baseline. The selected open-source models for comparison include Mixtral, LLaMA 2, LLaMA 3, Gemma, and Qwen2. Additionally, GPT-4o-mini, a more specialized version of GPT-4o, was included to extend the comparison. Given the multi-label nature of the SDG mapping task, we employed metrics such as F1 score, precision, and recall with micro-averaging to evaluate different aspects of the models' performance. These metrics are derived from the confusion matrix to ensure a comprehensive evaluation. We provide a clear observation and analysis of each model's performance by plotting curves based on F1 score, precision, and recall at different thresholds. According to the results of this experiment, LLaMA 2 and Gemma still have significant room for improvement. The other four models do not exhibit particularly large differences in performance. The outputs from all seven models are available on Zenodo: https://doi.org/10.5281/zenodo.12789375.

Auteurs: Hui Yin, Amir Aryani, Nakul Nambiar

Dernière mise à jour: 2024-08-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.02201

Source PDF: https://arxiv.org/pdf/2408.02201

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires