Nouveau benchmark VisScience évalue l'apprentissage multimodal

VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.

2025-06-15T07:37:54+00:00 ― 6 min lire

Table des matières

Aperçu du Test
Structure des Questions
Niveaux de Difficulté
Importance de l'Apprentissage Multimodal
Évaluation des Modèles
Résultats
Défis dans le Raisonnement Scientifique
Processus de Collecte de données
Comparaison avec les Tests Existants
Implications pour la Recherche Future
Conclusion
Source originale
Liens de référence

Récemment, un nouveau test appelé VisScience a été créé pour vérifier à quel point les grands modèles de langage multimodal (MLLMs) peuvent résoudre des problèmes scientifiques en utilisant à la fois du texte et des images. Ce test est important parce que beaucoup de tests existants se concentrent principalement sur les mathématiques et n'incluent pas d'autres matières scientifiques comme la physique et la chimie. VisScience vise à combler cette lacune en offrant une évaluation plus équilibrée des compétences en Raisonnement scientifique dans différents domaines.

Aperçu du Test

VisScience se compose de 3 000 questions qui couvrent trois domaines principaux : les mathématiques, la physique et la chimie. Chacun de ces domaines a 1 000 questions, réparties équitablement sur différents sujets et niveaux de difficulté. Les questions sont conçues pour des élèves de l'école primaire au lycée. L'objectif est d'évaluer à quel point les MLLMs comprennent et résolvent des problèmes présentés à la fois sous forme de texte et de visuel.

Structure des Questions

Les questions du test VisScience sont divisées en différents sujets au sein de chaque discipline.

Mathématiques

La section mathématiques comprend six sujets :

Géométrie plane
Géométrie solide
Fonctions et équations
Opérations algébriques
Probabilités et statistiques
Mathématiques combinatoires

Physique

La section physique est composée de huit sujets :

Mécanique
Thermodynamique
Expériences et méthodes complètes
Mouvement mécanique
Vibrations et ondes
Optique
Électromagnétisme
Physique moderne

Chimie

La section chimie comprend sept sujets :

Expériences chimiques
Chimie organique
Composition des matériaux
Électrochimie
Réactions chimiques
Chimie inorganique
Équilibre chimique

Niveaux de Difficulté

Les questions sont conçues avec cinq niveaux de difficulté :

Basique
Facile
Intermédiaire
Avancé
Expert

Cela permet de s'assurer que les modèles sont évalués sur des problèmes simples et complexes. En incluant des questions à différents niveaux, le test peut évaluer plus précisément les capacités des modèles à relever différents défis scientifiques.

Importance de l'Apprentissage Multimodal

L'apprentissage multimodal fait référence à la capacité à traiter et à comprendre des informations présentées à la fois sous forme de texte et d'image. Par exemple, une question peut inclure un diagramme ou un graphique que le modèle doit analyser avec le texte écrit pour arriver à la bonne réponse. Cette approche reflète les scénarios du monde réel où les informations sont souvent présentées sous plusieurs formes, ce qui est essentiel pour les modèles éducatifs.

Évaluation des Modèles

Lors de la phase d'évaluation, 25 MLLMs différents ont été testés à l'aide du benchmark VisScience. Ces modèles incluent à la fois des modèles open source et closed source, permettant une analyse complète de leurs performances. Les Évaluations révèlent à quel point ces modèles peuvent gérer la diversité des tâches de raisonnement scientifique présentées dans les questions.

Résultats

Les résultats ont indiqué que les MLLMs closed source ont généralement mieux performé que les modèles open source. Par exemple, les meilleurs scores enregistrés étaient :

Mathématiques : 53,4 % de précision par Claude3.5-Sonnet
Physique : 38,2 % de précision par GPT-4o
Chimie : 47,0 % par Gemini-1.5-Pro

Ces résultats mettent en évidence à la fois les forces et les faiblesses des MLLMs actuels, montrant qu'il reste encore des améliorations à apporter pour gérer les tâches de raisonnement scientifique.

Défis dans le Raisonnement Scientifique

Un défi commun rencontré par les modèles était les erreurs de raisonnement, en particulier lors de la résolution de problèmes nécessitant non seulement des calculs numériques mais aussi une compréhension conceptuelle. Les erreurs les plus significatives ont été trouvées dans :

Mathématiques : 56,5 %
Physique : 50,1 %
Chimie : 40,6 %

Cela suggère que bien que les modèles puissent effectuer des calculs, ils ont plus de mal à interpréter des informations visuelles et à appliquer ces connaissances pour résoudre des problèmes.

Processus de Collecte de données

Les questions incluses dans le test VisScience ont été soigneusement collectées à partir de sources éducatives K12. Un total de 450 000 questions a été initialement rassemblé, dont 3 000 questions de haute qualité ont été sélectionnées. Le processus de sélection a veillé à une large gamme de sujets et de niveaux de difficulté.

Annotation des Données

Pour garantir la qualité des questions, plusieurs vérifications ont été effectuées, y compris des révisions manuelles pour vérifier l'exactitude et la pertinence. Ce processus a impliqué de confirmer que le texte et le contenu visuel associé étaient appropriés et clairs pour l'objectif éducatif visé.

Comparaison avec les Tests Existants

Comparé aux tests existants, VisScience se distingue pour plusieurs raisons :

Il couvre un plus large éventail de sujets, y compris non seulement les mathématiques mais aussi la physique et la chimie.
Il propose des questions en anglais et en chinois, permettant une évaluation plus globale des MLLMs.
Il inclut une sélection soigneuse de questions provenant de divers sujets et niveaux de difficulté, plutôt que de se concentrer uniquement sur un domaine.

Implications pour la Recherche Future

Le développement de VisScience ouvre de nouvelles avenues pour la recherche en technologie éducative et en IA. Les résultats peuvent guider des améliorations supplémentaires dans la conception des MLLMs, les rendant plus efficaces pour comprendre et résoudre des problèmes scientifiques complexes.

Conclusion

Le benchmark VisScience représente une avancée significative dans l'évaluation de la capacité des MLLMs à raisonner dans des contextes scientifiques. En fournissant un ensemble diversifié de questions dans plusieurs disciplines et niveaux de difficulté, il offre une évaluation plus équilibrée et complète des capacités des modèles. Les insights obtenus de cette évaluation mettent non seulement en évidence les forces et faiblesses actuelles, mais ouvrent également la voie à de futures avancées tant dans les outils éducatifs que dans la technologie IA.

Nouveau benchmark VisScience évalue l'apprentissage multimodal

VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.

#Aperçu du Test

#Structure des Questions

#Mathématiques

#Physique

#Chimie

#Niveaux de Difficulté

#Importance de l'Apprentissage Multimodal

#Évaluation des Modèles

#Résultats

#Défis dans le Raisonnement Scientifique

#Processus de Collecte de données

#Annotation des Données

#Comparaison avec les Tests Existants

#Implications pour la Recherche Future

#Conclusion

Liens de référence

Sujets référencés