Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avaliando as Habilidades da IA em Protocolos Biológicos

Avaliar modelos de IA pela capacidade de seguir procedimentos de laboratório.

Igor Ivanov

― 7 min ler


A IA tem dificuldades comA IA tem dificuldades comprotocolos delaboratório.de problemas que são super importantes.laboratório e capacidades de resoluçãoA IA atual não tem habilidades de
Índice

A IA, ou inteligência artificial, tá ficando cada vez melhor em entender os princípios da biologia. Muita gente acredita que em breve esses modelos de IA podem ajudar os cientistas ou até mesmo assumir tarefas de pesquisa sozinhos. Os desenvolvedores de IA querem testar essas habilidades pra garantir que os modelos futuros consigam melhorar o que já fazem. Mas também rolam preocupações sobre os riscos que esses sistemas de IA podem trazer pra biosegurança. Tanto os laboratórios que criam IA quanto os órgãos reguladores precisam de métodos eficazes pra avaliar esses riscos.

Pra lidar com esse desafio, uma sugestão é um sistema em duas etapas. Primeiro, um modelo de IA é testado usando benchmarks que qualquer um pode acessar, que avaliam sua compreensão geral da biologia. Se a IA se sair bem, aí ela passa por testes mais específicos pra analisar habilidades potencialmente perigosas. O benchmark mencionado aqui foca no conhecimento geral de laboratório, encaixando bem nessa abordagem.

A Importância das Habilidades de Laboratório

A pesquisa em biologia muitas vezes depende de procedimentos de lab estabelecidos. É vital que qualquer pesquisador siga esses procedimentos e resolva problemas que aparecem durante os Experimentos. Embora essa habilidade seja crucial, tem muitas outras áreas de expertise que também são importantes na pesquisa em laboratório, mas não são abordadas aqui.

Criando o Conjunto de Dados

Pra avaliar como os modelos de IA conseguem seguir Protocolos biológicos, os pesquisadores usaram procedimentos disponíveis publicamente. Eles intencionalmente adicionaram erros a esses protocolos que fariam os experimentos falharem se não fossem percebidos. O objetivo era ver se uma IA conseguiria encontrar e corrigir essas falhas.

Essa tarefa serve como uma forma de medir a compreensão da IA sobre as relações de causa e efeito entre as ações de um pesquisador e os resultados. Essa compreensão muitas vezes requer conhecimento sobre princípios biológicos e químicos, lógica, matemática e como isso tudo se aplica num lab.

Os protocolos testados poderiam ser parte dos dados de treinamento de algumas IAs, permitindo que modelos avançados os memorizassem. Se encontrassem apenas um erro, poderiam apontá-lo sem realmente entender sua importância. Pra deixar a avaliação mais desafiadora, os pesquisadores mudaram pelo menos 200 aspectos de cada texto do protocolo que não alteravam os passos que um pesquisador tomaria. Isso incluiu usar sinônimos e reescrever frases pra evitar que os modelos focassem numa única mudança textual.

Os modelos de IA também poderiam lembrar do significado de cada passo de um protocolo. Pra lidar com isso, os pesquisadores fizeram nove mudanças em cada protocolo que não levariam a falhas. Por exemplo, mudaram o tempo de um passo específico, mas ainda permitindo que o procedimento desse certo. Depois, introduziram um erro que resultaria em falha, como encurtar o tempo necessário pra um passo crítico. Sem uma compreensão sólida dos processos subjacentes, seria difícil pra IA saber quais mudanças levariam a um resultado bem-sucedido e quais não.

Propriedades do Conjunto de Dados

O conjunto de testes foi composto por 800 casos gerados a partir de vários protocolos. Esses incluíam métodos para transfeção celular, amplificação de DNA, análise de proteínas e mais. Cada protocolo poderia ser dividido em diferentes tipos de erros pra avaliar várias áreas de conhecimento.

Em alguns casos, os pesquisadores mudaram as proporções das substâncias. Por exemplo, se um protocolo pedia pra misturar 1ml de um reagente com 99ml de água, mudaram pra misturar 10ml do reagente com 90ml de água. Essa mudança poderia alterar as propriedades da mistura resultante, permitindo que a IA detectasse erros através de matemática simples.

Em outros casos, eles modificaram condições físicas que são cruciais para as reações. Por exemplo, algumas enzimas precisam ser mantidas em temperaturas específicas pra manter sua eficácia. Ao recomendar incorretamente uma temperatura de armazenamento mais baixa, a substância poderia congelar, danificando a enzima.

Os pesquisadores também cometeram erros que testaram o conhecimento biológico da IA. Um exemplo envolveu alterar uma sequência de DNA em um primer de PCR, deixando-o muito curto pra funcionar corretamente.

Às vezes, eles quebraram práticas de laboratório estabelecidas. Por exemplo, mudaram protocolos pra que materiais destinados a uma área do lab pudessem acidentalmente se misturar com materiais de outra área, o que poderia levar a contaminação e resultados falhos.

Apesar desses testes variados, os modelos de IA consistentemente se saíram mal, lutando pra identificar os erros corretos mesmo quando testados com apenas um erro que resultaria em um experimento falhado.

Avaliando o Desempenho dos Modelos

Durante a avaliação, os pesquisadores apresentaram à IA, chamada de solver, um protocolo projetado pra falhar. Eles então pediram pra identificar a causa da falha. As respostas do solver foram avaliadas por outro modelo de IA, chamado de grader. O grader avaliou se o solver identificou corretamente o erro examinando tanto as partes originais quanto as modificadas do protocolo.

Pra reduzir a confusão, o grader só recebeu partes do protocolo original ao invés do texto completo. Isso porque apresentar o protocolo inteiro frequentemente distraía o grader e levava a avaliações incorretas. Ao testar os modelos de IA com esse método, os pesquisadores descobriram que alguns modelos de IA produziam resultados pouco confiáveis, enquanto outros mostravam potencial.

O desempenho de vários modelos de IA nesse benchmark foi surpreendentemente baixo. Modelos como GPT-4o mini, Claude 3, e outros marcaram cerca de 7% de respostas corretas. Em contraste, outros modelos como GPT-4o e Mistral Large marcaram um pouco melhor, com cerca de 16% e 17% de respostas corretas. Especialistas humanos, quando recebiam as mesmas tarefas, marcaram muito mais alto, cerca de 38,4%.

Comparando com Outros Benchmarks

O benchmark criado nessa pesquisa é semelhante a um benchmark anterior conhecido como LAB-bench, mas com diferenças importantes. O LAB-bench usa questões de múltipla escolha, enquanto esse utiliza perguntas abertas. Essa diferença de formato resultou em desempenhos distintos entre os modelos testados.

Os modelos de IA mostraram desempenho melhor no LAB-bench, com precisão variando de 37% a 53%. Em contraste, a diferença de desempenho entre os modelos nesse benchmark atual foi mais significativa, com alguns modelos ficando pra trás.

Comprimento dos Protocolos e Desempenho

Os protocolos variam em comprimento, e descobertas anteriores sugerem que os modelos de IA tendem a se sair pior com textos mais longos. Nesse estudo, todos os modelos avaliados mostraram desempenho diminuído com protocolos mais longos. No entanto, essas tendências não foram estatisticamente significativas devido ao número limitado de protocolos utilizados.

A Necessidade de Habilidades Mais Amplas

Entender protocolos é só uma das várias habilidades necessárias pra pesquisa eficaz em laboratório. Outros benchmarks, como o LAB-bench, avaliam uma gama mais ampla de habilidades, como a capacidade de analisar artigos científicos ou interpretar sequências de nucleotídeos.

Natureza de Duplo Uso dos Protocolos

Muitos protocolos biológicos são de duplo uso, ou seja, podem servir tanto pra Pesquisas benéficas quanto pra aplicações potencialmente perigosas. Por exemplo, um método que ajuda no desenvolvimento de uma vacina também poderia ser mal utilizado pra criar um patógeno nocivo. Essa ideia enfatiza a necessidade de avaliar tanto as habilidades científicas gerais quanto aquelas que poderiam levar a abusos.

Conclusão: A Importância da Especificidade

As perguntas nesse benchmark podem não ser específicas o suficiente. Em situações reais de laboratório, os pesquisadores geralmente sabem mais sobre quais passos deram errado e o resultado daquela falha. Por exemplo, um procedimento complexo como o sequenciamento do gene 16s rRNA consiste em múltiplos passos, tornando mais fácil identificar a origem de qualquer falha.

Através desse estudo, fica claro que enquanto a IA pode oferecer algum nível de assistência na pesquisa biológica, sua compreensão atual de protocolos e resolução de problemas ainda tá deficiente. À medida que a IA continua a se desenvolver, avaliações e ajustes contínuos serão essenciais pra garantir sua confiabilidade e segurança na pesquisa científica.

Fonte original

Título: BioLP-bench: Measuring understanding of biological lab protocols by large language models

Resumo: Language models rapidly become more capable in many domains, including biology. Both AI developers and policy makers [1] [2] [3] are in need of benchmarks that evaluate their proficiency in conducting biological research. However, there are only a handful of such benchmarks[4, 5], and all of them have their limitations. This paper introduces the Biological Lab Protocol benchmark (BioLP-bench) that evaluates the ability of language models to find and correct mistakes in a diverse set of laboratory protocols commonly used in biological research. To evaluate understanding of the protocols by AI models, we introduced in these protocols numerous mistakes that would still allow them to function correctly. After that we introduced in each protocol a single mistake that would cause it to fail. We then presented these modified protocols to an LLM, prompting it to identify the mistake that would cause it to fail, and measured the accuracy of a model in identifying such mistakes across many test cases. Only OpenAI o1-preview scored similarly to the performance of human experts, while other language models demonstrated substantially worse performance, and in most cases couldnt correctly identify the mistake. Code and dataset are published at https://github.com/baceolus/BioLP-bench

Autores: Igor Ivanov

Última atualização: 2024-10-21 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.08.21.608694

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.21.608694.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes