Nouveau benchmark VisScience évalue l'apprentissage multimodal
VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.
Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang
― 6 min lire
Table des matières
- Aperçu du Test
- Structure des Questions
- Mathématiques
- Physique
- Chimie
- Niveaux de Difficulté
- Importance de l'Apprentissage Multimodal
- Évaluation des Modèles
- Résultats
- Défis dans le Raisonnement Scientifique
- Processus de Collecte de données
- Annotation des Données
- Comparaison avec les Tests Existants
- Implications pour la Recherche Future
- Conclusion
- Source originale
- Liens de référence
Récemment, un nouveau test appelé VisScience a été créé pour vérifier à quel point les grands modèles de langage multimodal (MLLMs) peuvent résoudre des problèmes scientifiques en utilisant à la fois du texte et des images. Ce test est important parce que beaucoup de tests existants se concentrent principalement sur les mathématiques et n'incluent pas d'autres matières scientifiques comme la physique et la chimie. VisScience vise à combler cette lacune en offrant une évaluation plus équilibrée des compétences en Raisonnement scientifique dans différents domaines.
Aperçu du Test
VisScience se compose de 3 000 questions qui couvrent trois domaines principaux : les mathématiques, la physique et la chimie. Chacun de ces domaines a 1 000 questions, réparties équitablement sur différents sujets et niveaux de difficulté. Les questions sont conçues pour des élèves de l'école primaire au lycée. L'objectif est d'évaluer à quel point les MLLMs comprennent et résolvent des problèmes présentés à la fois sous forme de texte et de visuel.
Structure des Questions
Les questions du test VisScience sont divisées en différents sujets au sein de chaque discipline.
Mathématiques
La section mathématiques comprend six sujets :
- Géométrie plane
- Géométrie solide
- Fonctions et équations
- Opérations algébriques
- Probabilités et statistiques
- Mathématiques combinatoires
Physique
La section physique est composée de huit sujets :
- Mécanique
- Thermodynamique
- Expériences et méthodes complètes
- Mouvement mécanique
- Vibrations et ondes
- Optique
- Électromagnétisme
- Physique moderne
Chimie
La section chimie comprend sept sujets :
- Expériences chimiques
- Chimie organique
- Composition des matériaux
- Électrochimie
- Réactions chimiques
- Chimie inorganique
- Équilibre chimique
Niveaux de Difficulté
Les questions sont conçues avec cinq niveaux de difficulté :
- Basique
- Facile
- Intermédiaire
- Avancé
- Expert
Cela permet de s'assurer que les modèles sont évalués sur des problèmes simples et complexes. En incluant des questions à différents niveaux, le test peut évaluer plus précisément les capacités des modèles à relever différents défis scientifiques.
Importance de l'Apprentissage Multimodal
L'apprentissage multimodal fait référence à la capacité à traiter et à comprendre des informations présentées à la fois sous forme de texte et d'image. Par exemple, une question peut inclure un diagramme ou un graphique que le modèle doit analyser avec le texte écrit pour arriver à la bonne réponse. Cette approche reflète les scénarios du monde réel où les informations sont souvent présentées sous plusieurs formes, ce qui est essentiel pour les modèles éducatifs.
Évaluation des Modèles
Lors de la phase d'évaluation, 25 MLLMs différents ont été testés à l'aide du benchmark VisScience. Ces modèles incluent à la fois des modèles open source et closed source, permettant une analyse complète de leurs performances. Les Évaluations révèlent à quel point ces modèles peuvent gérer la diversité des tâches de raisonnement scientifique présentées dans les questions.
Résultats
Les résultats ont indiqué que les MLLMs closed source ont généralement mieux performé que les modèles open source. Par exemple, les meilleurs scores enregistrés étaient :
- Mathématiques : 53,4 % de précision par Claude3.5-Sonnet
- Physique : 38,2 % de précision par GPT-4o
- Chimie : 47,0 % par Gemini-1.5-Pro
Ces résultats mettent en évidence à la fois les forces et les faiblesses des MLLMs actuels, montrant qu'il reste encore des améliorations à apporter pour gérer les tâches de raisonnement scientifique.
Défis dans le Raisonnement Scientifique
Un défi commun rencontré par les modèles était les erreurs de raisonnement, en particulier lors de la résolution de problèmes nécessitant non seulement des calculs numériques mais aussi une compréhension conceptuelle. Les erreurs les plus significatives ont été trouvées dans :
- Mathématiques : 56,5 %
- Physique : 50,1 %
- Chimie : 40,6 %
Cela suggère que bien que les modèles puissent effectuer des calculs, ils ont plus de mal à interpréter des informations visuelles et à appliquer ces connaissances pour résoudre des problèmes.
Collecte de données
Processus deLes questions incluses dans le test VisScience ont été soigneusement collectées à partir de sources éducatives K12. Un total de 450 000 questions a été initialement rassemblé, dont 3 000 questions de haute qualité ont été sélectionnées. Le processus de sélection a veillé à une large gamme de sujets et de niveaux de difficulté.
Annotation des Données
Pour garantir la qualité des questions, plusieurs vérifications ont été effectuées, y compris des révisions manuelles pour vérifier l'exactitude et la pertinence. Ce processus a impliqué de confirmer que le texte et le contenu visuel associé étaient appropriés et clairs pour l'objectif éducatif visé.
Comparaison avec les Tests Existants
Comparé aux tests existants, VisScience se distingue pour plusieurs raisons :
- Il couvre un plus large éventail de sujets, y compris non seulement les mathématiques mais aussi la physique et la chimie.
- Il propose des questions en anglais et en chinois, permettant une évaluation plus globale des MLLMs.
- Il inclut une sélection soigneuse de questions provenant de divers sujets et niveaux de difficulté, plutôt que de se concentrer uniquement sur un domaine.
Implications pour la Recherche Future
Le développement de VisScience ouvre de nouvelles avenues pour la recherche en technologie éducative et en IA. Les résultats peuvent guider des améliorations supplémentaires dans la conception des MLLMs, les rendant plus efficaces pour comprendre et résoudre des problèmes scientifiques complexes.
Conclusion
Le benchmark VisScience représente une avancée significative dans l'évaluation de la capacité des MLLMs à raisonner dans des contextes scientifiques. En fournissant un ensemble diversifié de questions dans plusieurs disciplines et niveaux de difficulté, il offre une évaluation plus équilibrée et complète des capacités des modèles. Les insights obtenus de cette évaluation mettent non seulement en évidence les forces et faiblesses actuelles, mais ouvrent également la voie à de futures avancées tant dans les outils éducatifs que dans la technologie IA.
Titre: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
Résumé: Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.
Auteurs: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang
Dernière mise à jour: 2024-12-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.13730
Source PDF: https://arxiv.org/pdf/2409.13730
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
- https://www.anthropic.com/api
- https://ai.google.dev/
- https://platform.openai.com/docs/models/gpt-4o
- https://help.aliyun.com/zh/dashscope/developer-reference/vl-plus-quick-start
- https://open.bigmodel.cn/dev/api
- https://platform.stepfun.com/docs/llm/vision
- https://github.com/X-PLUG/mPLUG-Owl
- https://github.com/deepseek-ai/DeepSeek-VL
- https://github.com/ml-lab/LLaMA-Adapter-2
- https://github.com/haotian-liu/LLaVA
- https://huggingface.co/Lin-Chen/ShareGPT4V-7B
- https://huggingface.co/Lin-Chen/ShareGPT4V-13B
- https://huggingface.co/THUDM/glm-4v-9b
- https://github.com/Alpha-VLLM/LLaMA2-Accessory/blob/main/SPHINX/README.md
- https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
- https://huggingface.co/OpenGVLab/InternVL-Chat-V1-2-Plus
- https://huggingface.co/internlm/internlm-xcomposer2-vl-7b
- https://huggingface.co/THUDM/cogvlm-chat-hf