Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Calcul et langage

Nouveau benchmark VisScience évalue l'apprentissage multimodal

VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.

Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang

― 6 min lire


VisScience Benchmark pourVisScience Benchmark pourl'apprentissage de l'IAnouveau critère.raisonnement scientifique avec unÉvaluation des modèles d'IA sur le
Table des matières

Récemment, un nouveau test appelé VisScience a été créé pour vérifier à quel point les grands modèles de langage multimodal (MLLMs) peuvent résoudre des problèmes scientifiques en utilisant à la fois du texte et des images. Ce test est important parce que beaucoup de tests existants se concentrent principalement sur les mathématiques et n'incluent pas d'autres matières scientifiques comme la physique et la chimie. VisScience vise à combler cette lacune en offrant une évaluation plus équilibrée des compétences en Raisonnement scientifique dans différents domaines.

Aperçu du Test

VisScience se compose de 3 000 questions qui couvrent trois domaines principaux : les mathématiques, la physique et la chimie. Chacun de ces domaines a 1 000 questions, réparties équitablement sur différents sujets et niveaux de difficulté. Les questions sont conçues pour des élèves de l'école primaire au lycée. L'objectif est d'évaluer à quel point les MLLMs comprennent et résolvent des problèmes présentés à la fois sous forme de texte et de visuel.

Structure des Questions

Les questions du test VisScience sont divisées en différents sujets au sein de chaque discipline.

Mathématiques

La section mathématiques comprend six sujets :

  • Géométrie plane
  • Géométrie solide
  • Fonctions et équations
  • Opérations algébriques
  • Probabilités et statistiques
  • Mathématiques combinatoires

Physique

La section physique est composée de huit sujets :

  • Mécanique
  • Thermodynamique
  • Expériences et méthodes complètes
  • Mouvement mécanique
  • Vibrations et ondes
  • Optique
  • Électromagnétisme
  • Physique moderne

Chimie

La section chimie comprend sept sujets :

  • Expériences chimiques
  • Chimie organique
  • Composition des matériaux
  • Électrochimie
  • Réactions chimiques
  • Chimie inorganique
  • Équilibre chimique

Niveaux de Difficulté

Les questions sont conçues avec cinq niveaux de difficulté :

  1. Basique
  2. Facile
  3. Intermédiaire
  4. Avancé
  5. Expert

Cela permet de s'assurer que les modèles sont évalués sur des problèmes simples et complexes. En incluant des questions à différents niveaux, le test peut évaluer plus précisément les capacités des modèles à relever différents défis scientifiques.

Importance de l'Apprentissage Multimodal

L'apprentissage multimodal fait référence à la capacité à traiter et à comprendre des informations présentées à la fois sous forme de texte et d'image. Par exemple, une question peut inclure un diagramme ou un graphique que le modèle doit analyser avec le texte écrit pour arriver à la bonne réponse. Cette approche reflète les scénarios du monde réel où les informations sont souvent présentées sous plusieurs formes, ce qui est essentiel pour les modèles éducatifs.

Évaluation des Modèles

Lors de la phase d'évaluation, 25 MLLMs différents ont été testés à l'aide du benchmark VisScience. Ces modèles incluent à la fois des modèles open source et closed source, permettant une analyse complète de leurs performances. Les Évaluations révèlent à quel point ces modèles peuvent gérer la diversité des tâches de raisonnement scientifique présentées dans les questions.

Résultats

Les résultats ont indiqué que les MLLMs closed source ont généralement mieux performé que les modèles open source. Par exemple, les meilleurs scores enregistrés étaient :

  • Mathématiques : 53,4 % de précision par Claude3.5-Sonnet
  • Physique : 38,2 % de précision par GPT-4o
  • Chimie : 47,0 % par Gemini-1.5-Pro

Ces résultats mettent en évidence à la fois les forces et les faiblesses des MLLMs actuels, montrant qu'il reste encore des améliorations à apporter pour gérer les tâches de raisonnement scientifique.

Défis dans le Raisonnement Scientifique

Un défi commun rencontré par les modèles était les erreurs de raisonnement, en particulier lors de la résolution de problèmes nécessitant non seulement des calculs numériques mais aussi une compréhension conceptuelle. Les erreurs les plus significatives ont été trouvées dans :

  • Mathématiques : 56,5 %
  • Physique : 50,1 %
  • Chimie : 40,6 %

Cela suggère que bien que les modèles puissent effectuer des calculs, ils ont plus de mal à interpréter des informations visuelles et à appliquer ces connaissances pour résoudre des problèmes.

Processus de Collecte de données

Les questions incluses dans le test VisScience ont été soigneusement collectées à partir de sources éducatives K12. Un total de 450 000 questions a été initialement rassemblé, dont 3 000 questions de haute qualité ont été sélectionnées. Le processus de sélection a veillé à une large gamme de sujets et de niveaux de difficulté.

Annotation des Données

Pour garantir la qualité des questions, plusieurs vérifications ont été effectuées, y compris des révisions manuelles pour vérifier l'exactitude et la pertinence. Ce processus a impliqué de confirmer que le texte et le contenu visuel associé étaient appropriés et clairs pour l'objectif éducatif visé.

Comparaison avec les Tests Existants

Comparé aux tests existants, VisScience se distingue pour plusieurs raisons :

  • Il couvre un plus large éventail de sujets, y compris non seulement les mathématiques mais aussi la physique et la chimie.
  • Il propose des questions en anglais et en chinois, permettant une évaluation plus globale des MLLMs.
  • Il inclut une sélection soigneuse de questions provenant de divers sujets et niveaux de difficulté, plutôt que de se concentrer uniquement sur un domaine.

Implications pour la Recherche Future

Le développement de VisScience ouvre de nouvelles avenues pour la recherche en technologie éducative et en IA. Les résultats peuvent guider des améliorations supplémentaires dans la conception des MLLMs, les rendant plus efficaces pour comprendre et résoudre des problèmes scientifiques complexes.

Conclusion

Le benchmark VisScience représente une avancée significative dans l'évaluation de la capacité des MLLMs à raisonner dans des contextes scientifiques. En fournissant un ensemble diversifié de questions dans plusieurs disciplines et niveaux de difficulté, il offre une évaluation plus équilibrée et complète des capacités des modèles. Les insights obtenus de cette évaluation mettent non seulement en évidence les forces et faiblesses actuelles, mais ouvrent également la voie à de futures avancées tant dans les outils éducatifs que dans la technologie IA.

Source originale

Titre: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Résumé: Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.

Auteurs: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang

Dernière mise à jour: 2024-12-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.13730

Source PDF: https://arxiv.org/pdf/2409.13730

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires