Évaluer les compétences de l'IA dans les protocoles biologiques
Évaluer les modèles d'IA pour leur capacité à suivre les procédures de labo.
― 8 min lire
Table des matières
- L'importance des compétences en laboratoire
- Création du jeu de données
- Propriétés du jeu de données
- Évaluation des performances du modèle
- Comparaison avec d'autres références
- Longueur des protocoles et performance
- Le besoin de compétences plus larges
- Nature à double usage des protocoles
- Conclusion : L'importance de la spécificité
- Source originale
- Liens de référence
L'IA, ou intelligence artificielle, devient de plus en plus douée pour comprendre les principes de la biologie. Beaucoup pensent que dans un avenir proche, ces modèles d'IA pourraient aider les scientifiques ou même s'occuper de certaines tâches de recherche eux-mêmes. Les développeurs d'IA veulent tester ces capacités pour s'assurer que les modèles futurs puissent améliorer ce qu'ils font déjà. Cependant, il y a aussi des inquiétudes concernant les risques que ces systèmes d'IA peuvent poser à la Biosécurité. Les labos qui créent l'IA et les organismes de réglementation ont besoin de méthodes efficaces pour évaluer ces risques.
Pour gérer ce défi, une méthode suggérée est un système en deux étapes. D'abord, un modèle d'IA est vérifié avec des références accessibles à tous, qui évaluent sa compréhension générale de la biologie. Si l'IA réussit suffisamment, elle passe ensuite par des tests plus spécialisés pour évaluer directement les compétences potentiellement dangereuses. La référence mentionnée ici se concentre sur des connaissances générales en laboratoire, ce qui la rend adaptée à cette approche.
L'importance des compétences en laboratoire
La recherche en biologie dépend souvent de procédures de lab établies. Il est vital pour tout chercheur de suivre ces procédures et de traiter les problèmes qui surgissent pendant les Expériences. Bien que cette compétence soit cruciale, il y a plein d'autres domaines d'expertise qui sont aussi importants dans la recherche en laboratoire mais qui ne sont pas abordés ici.
Création du jeu de données
Pour évaluer à quel point les modèles d'IA peuvent suivre des Protocoles biologiques, les chercheurs ont utilisé des procédures disponibles publiquement. Ils ont volontairement ajouté des erreurs à ces protocoles qui feraient échouer les expériences si elles n'étaient pas repérées. Le but était de voir si une IA pouvait trouver et corriger ces erreurs.
Cette tâche sert à mesurer la compréhension par le modèle d'IA des relations de cause à effet entre les actions d'un chercheur et les résultats. Cette compréhension nécessite souvent des connaissances en principes biologiques et chimiques, en logique, en mathématiques et en application dans un lab.
Les protocoles testés pourraient faire partie des données d'entraînement de certaines IA, permettant aux modèles avancés de les mémoriser. S'ils devaient trouver juste une erreur, ils pourraient être capables de la repérer sans vraiment comprendre sa signification. Pour rendre l'évaluation plus difficile, les chercheurs ont modifié au moins 200 aspects de chaque texte de protocole sans changer les étapes qu'un chercheur suivrait. Ça a inclus l'utilisation de synonymes et le reformulation de phrases pour empêcher les modèles de se concentrer sur un seul changement textuel.
Les modèles d'IA pourraient aussi se souvenir de la signification derrière chaque étape d'un protocole. Pour y remédier, les chercheurs ont fait neuf changements à chaque protocole qui ne conduisaient pas à un échec. Par exemple, ils ont modifié le timing d'une étape spécifique tout en permettant que la procédure réussisse. Ensuite, ils ont introduit une erreur qui mènerait à un échec, comme réduire la durée nécessaire pour une étape critique. Sans une bonne compréhension des processus sous-jacents, il serait difficile pour l'IA de dire quels changements mèneraient à un résultat réussi et lesquels non.
Propriétés du jeu de données
Le jeu de test se composait de 800 cas générés à partir de divers protocoles. Ceux-ci incluent des méthodes pour la transfection cellulaire, l'amplification de l'ADN, l'analyse des protéines, etc. Chaque protocole pouvait être décomposé en différents types d'erreurs pour évaluer diverses zones de connaissance.
Dans certains cas, les chercheurs ont changé les proportions de substances. Par exemple, si un protocole demandait de mélanger 1ml d'un réactif avec 99ml d'eau, ils l'ont changé pour mélanger 10ml du réactif avec 90ml d'eau. Ce changement pourrait modifier les propriétés du mélange résultant, permettant à l'IA de détecter des erreurs par des calculs simples.
Dans d'autres cas, ils ont modifié des conditions physiques cruciales pour les réactions. Par exemple, certaines enzymes doivent être maintenues à des températures spécifiques pour garder leur efficacité. En recommandant une température de stockage incorrecte plus basse, la substance gèlerait, endommageant l'enzyme.
Les chercheurs ont aussi fait des erreurs qui testaient les connaissances biologiques de l'IA. Un tel exemple impliquait de modifier une séquence d'ADN dans un amorce de PCR, la rendant trop courte pour fonctionner correctement.
Ils ont parfois enfreint des pratiques habituelles en laboratoire. Par exemple, ils ont modifié des protocoles pour que des matériaux destinés à une zone du laboratoire puissent accidentellement se mélanger avec des matériaux d'une autre zone, ce qui pourrait entraîner une contamination et des résultats échoués.
Malgré ces divers tests, les modèles d'IA ont constamment bien performé à bas niveau, luttant pour identifier les erreurs correctes même lorsqu'ils étaient testés avec juste une erreur qui entraînerait un échec d'expérience.
Évaluation des performances du modèle
Lors de l'évaluation, les chercheurs ont présenté à l'IA, appelée le solveur, un protocole conçu pour échouer. Ils lui ont ensuite demandé d'identifier la cause de l'échec. Les réponses du solveur ont été évaluées par un autre modèle d'IA, appelé le correcteur. Le correcteur a évalué si le solveur avait correctement identifié l'erreur en examinant les parties originales et modifiées du protocole.
Pour réduire la confusion, le correcteur a seulement reçu des parties du protocole original au lieu du texte complet. Cela parce que présenter le protocole entier distrayait souvent le correcteur et menait à des évaluations incorrectes. En testant les modèles d'IA avec cette méthode, les chercheurs ont découvert que certains modèles d'IA produisaient des résultats peu fiables, tandis que d'autres montraient un certain potentiel.
La performance de divers modèles d'IA sur cette référence était étonnamment basse. Des modèles comme GPT-4o mini, Claude 3, et d'autres ont obtenu près de 7% de bonnes réponses. En revanche, d'autres modèles comme GPT-4o et Mistral Large ont légèrement mieux réussi avec environ 16% et 17% de bonnes réponses. Les experts humains, lorsqu'on leur donnait les mêmes tâches, ont obtenu bien plus haut avec environ 38,4%.
Comparaison avec d'autres références
La référence créée dans cette recherche est similaire à une référence précédente connue sous le nom de LAB-bench, mais avec des différences clés. LAB-bench utilise des questions à choix multiple, tandis que celle-ci emploie des questions ouvertes. Cette différence de format a entraîné des performances distinctes parmi les modèles testés.
Les modèles d'IA ont montré de meilleures performances sur LAB-bench, avec une précision allant de 37% à 53%. En comparaison, la différence de performance parmi les modèles dans cette référence actuelle était plus marquée, certains modèles étant à la traîne.
Longueur des protocoles et performance
Les protocoles varient en longueur, et des résultats précédents suggèrent que les modèles d'IA ont tendance à moins bien performer sur des textes plus longs. Dans cette étude, tous les modèles évalués ont montré une diminution des performances avec des protocoles plus longs. Cependant, ces tendances n'étaient pas significatives sur le plan statistique en raison du nombre limité de protocoles utilisés.
Le besoin de compétences plus larges
Comprendre les protocoles n'est qu'une des plusieurs compétences nécessaires pour une recherche efficace en laboratoire. D'autres références, comme LAB-bench, évaluent une plus large gamme de compétences, comme la capacité à analyser des articles scientifiques ou à interpréter des séquences de nucléotides.
Nature à double usage des protocoles
De nombreux protocoles biologiques sont à double usage, c'est-à-dire qu'ils peuvent servir à la fois pour des Recherches bénéfiques et pour des applications potentiellement dangereuses. Par exemple, une méthode qui aide à développer un vaccin pourrait aussi être détournée pour créer un agent pathogène nuisible. Cette idée souligne le besoin d'évaluer à la fois les compétences scientifiques générales et celles qui pourraient mener à un usage détourné.
Conclusion : L'importance de la spécificité
Les questions de cette référence ne peuvent pas être assez spécifiques. Dans des situations réelles en laboratoire, les chercheurs savent généralement mieux quelles étapes ont mal tourné et le résultat de cet échec. Par exemple, une procédure complexe comme le séquençage du gène 16s rRNA consiste en plusieurs étapes, ce qui facilite l'identification de la source d'un échec.
À travers cette étude, il devient clair que bien que l'IA puisse fournir un certain niveau d'assistance dans la recherche biologique, sa compréhension actuelle des protocoles et du dépannage est encore insuffisante. À mesure que l'IA continue de se développer, des évaluations continues et des ajustements seront essentiels pour garantir sa fiabilité et sa sécurité dans la recherche scientifique.
Titre: BioLP-bench: Measuring understanding of biological lab protocols by large language models
Résumé: Language models rapidly become more capable in many domains, including biology. Both AI developers and policy makers [1] [2] [3] are in need of benchmarks that evaluate their proficiency in conducting biological research. However, there are only a handful of such benchmarks[4, 5], and all of them have their limitations. This paper introduces the Biological Lab Protocol benchmark (BioLP-bench) that evaluates the ability of language models to find and correct mistakes in a diverse set of laboratory protocols commonly used in biological research. To evaluate understanding of the protocols by AI models, we introduced in these protocols numerous mistakes that would still allow them to function correctly. After that we introduced in each protocol a single mistake that would cause it to fail. We then presented these modified protocols to an LLM, prompting it to identify the mistake that would cause it to fail, and measured the accuracy of a model in identifying such mistakes across many test cases. Only OpenAI o1-preview scored similarly to the performance of human experts, while other language models demonstrated substantially worse performance, and in most cases couldnt correctly identify the mistake. Code and dataset are published at https://github.com/baceolus/BioLP-bench
Auteurs: Igor Ivanov
Dernière mise à jour: 2024-10-21 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.08.21.608694
Source PDF: https://www.biorxiv.org/content/10.1101/2024.08.21.608694.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.