Avaliando Agentes de IA na Pesquisa Biomédica
Um novo padrão pra avaliar o desempenho de agentes de IA em literatura biomédica e gráficos de conhecimento.
― 6 min ler
Índice
- Contexto
- Uma Nova Tarefa para Agentes: Verificação de Grafos de Conhecimento
- A Importância da Revisão de Literatura
- Limitações dos Métodos Existentes
- Grafos de Conhecimento: Uma Ferramenta Útil
- O Desafio de Manter o Conhecimento Atualizado
- Nosso Benchmark Proposto
- Metodologia
- Coleta de Dados
- Descobertas Iniciais
- Apresentando o BKGAgent
- Avaliação de Desempenho
- Conclusões
- Trabalho Futuro
- Considerações Finais
- Fonte original
- Ligações de referência
A inteligência artificial (IA) tá fazendo sucesso em várias áreas, e a ciência biomédica não é diferente. Um método popular é criar agentes de IA que trabalham junto com humanos, aproveitando uma quantidade enorme de informações. Mas avaliar o desempenho desses agentes de IA nesse contexto biomédico é bem complicado. A maioria das avaliações se baseia em perguntas diretas para os modelos de IA ou em métodos experimentais relacionados à pesquisa biomédica. Este artigo quer focar em uma nova forma de medir as capacidades dos agentes de IA na área biomédica, especialmente na compreensão de literatura e na interação com Grafos de Conhecimento.
Contexto
Os modelos de IA atuais, especialmente os grandes modelos de linguagem (LLMs), mostraram tanto potencial quanto limitações. Eles conseguem gerar texto e resumir informações de forma eficiente, mas muitas vezes têm dificuldade com a precisão factual. Isso leva à ideia de que, para um agente de IA ser realmente útil na pesquisa biomédica, ele precisa ter duas habilidades: a capacidade de entender e verificar a literatura científica e a habilidade de se envolver com formas estruturadas de conhecimento, especialmente grafos de conhecimento.
Uma Nova Tarefa para Agentes: Verificação de Grafos de Conhecimento
Pra resolver a necessidade de uma melhor avaliação desses agentes de IA, a gente propõe uma tarefa nova chamada Verificação de Grafos de Conhecimento (KGCheck). Essa tarefa se divide em duas habilidades principais:
- Perguntas e Respostas sobre Grafos de Conhecimento (KGQA): Isso envolve consultar um grafo de conhecimento pra recuperar informações enquanto mantém a precisão.
- Verificação de Afirmações Científicas (SCV): Isso foca na análise das afirmações feitas na literatura científica e na avaliação da veracidade delas com base nas evidências apresentadas.
Revisão de Literatura
A Importância daUma habilidade crucial de qualquer cientista é a capacidade de revisar e entender a literatura existente. A revisão de literatura é mais do que apenas ler; envolve pensamento crítico e análise de várias fontes de informação. Ao permitir que agentes de IA se envolvam na revisão de literatura, podemos aumentar a utilidade deles na pesquisa científica.
Limitações dos Métodos Existentes
Os métodos atuais para avaliar agentes de IA tendem a focar em tarefas simples de perguntas e respostas, que não capturam a complexidade da investigação científica. Os benchmarks existentes podem não avaliar bem como um agente de IA pode usar conhecimento e ferramentas externas para validar informações.
Grafos de Conhecimento: Uma Ferramenta Útil
Grafos de conhecimento servem como uma maneira sofisticada de organizar e armazenar grandes quantidades de dados de uma forma que é fácil de consultar e analisar. Eles contêm informações interconectadas, permitindo que agentes de IA acessem conhecimento estruturado que complementa os dados não estruturados encontrados na literatura científica.
O Desafio de Manter o Conhecimento Atualizado
Embora os grafos de conhecimento possam ser extremamente úteis, um grande problema é a sua natureza estática, que pode levar a informações desatualizadas. Isso é especialmente preocupante em um campo que avança rapidamente como a ciência biomédica, onde novas pesquisas podem rapidamente tornar estudos anteriores obsoletos.
Nosso Benchmark Proposto
Pra criar uma avaliação mais eficaz para os agentes de IA, a gente propõe um benchmark abrangente chamado KGCheck. Este benchmark tem como objetivo verificar a correção das informações nos grafos de conhecimento comparando com a literatura e outras fontes confiáveis. O objetivo final é avaliar quão bem um agente de IA pode processar tanto dados estruturados (como grafos de conhecimento) quanto dados não estruturados (como artigos científicos).
Metodologia
Ao executar a tarefa KGCheck, os agentes precisarão:
- Consultar grafos de conhecimento pra extrair informações relevantes.
- Fazer uma comparação cruzada desses dados extraídos com literatura externa ou bancos de dados pra verificar a precisão.
- Determinar se as informações estão alinhadas com o que se conhece de fontes respeitáveis.
Coleta de Dados
Para a tarefa KGCheck, a gente coletou vários conjuntos de dados, incluindo:
- Mais de 700 perguntas para o componente KGQA.
- Uma coleção de afirmações científicas para a tarefa SCV.
Esses dados foram coletados de várias fontes biomédicas confiáveis, permitindo que a gente criasse uma estrutura de avaliação robusta.
Descobertas Iniciais
Depois de avaliar vários agentes de IA usando nosso benchmark, observamos que muitos deles tiveram dificuldade em atingir os níveis de desempenho esperados. Principalmente, agentes de ponta frequentemente não conseguiam verificar com precisão os dados dos grafos de conhecimento e entender as afirmações científicas.
Apresentando o BKGAgent
Pra melhorar ainda mais o processo de avaliação, a gente introduziu um novo agente chamado BKGAgent. Esse é um sistema multi-agente equipado com os componentes necessários pra interagir de forma eficaz com grafos de conhecimento e literatura. Ele consiste em:
- Um líder de equipe, que gerencia o processo.
- Um agente KG, responsável por consultar o grafo de conhecimento.
- Um agente de validação, encarregado de verificar a correção das informações recuperadas.
Avaliação de Desempenho
Fizemos testes rigorosos em vários agentes de IA no nosso benchmark, focando na capacidade deles de completar tanto as tarefas KGQA quanto SCV. Os resultados destacaram discrepâncias significativas de desempenho entre os diferentes agentes, mostrando a necessidade do nosso novo método de avaliação.
Conclusões
À medida que a IA continua a desempenhar um papel fundamental na pesquisa biomédica, avaliar corretamente suas capacidades é essencial. Nosso benchmark KGCheck representa um avanço na compreensão de como os agentes de IA podem auxiliar pesquisadores. Através de testes sistemáticos das habilidades deles de acessar e validar conhecimento, podemos avaliar melhor a utilidade deles nas empreitadas científicas.
Trabalho Futuro
Olhando pra frente, a gente planeja refinar a estrutura do KGCheck, permitindo avaliações ainda mais detalhadas dos agentes de IA. O nosso objetivo é permitir que eles corrijam continuamente erros em tempo real, melhorando assim o desempenho ao longo do tempo. Outras adaptações podem incluir a integração de bancos de dados adicionais, expandindo o escopo das afirmações e explorando como esses agentes podem identificar e corrigir de forma autônoma imprecisões nos grafos de conhecimento.
Considerações Finais
Ao conectar a revisão de literatura e a interação com grafos de conhecimento, nosso benchmark proposto promete melhorar o papel da IA na ciência biomédica. À medida que o campo evolui, nossas ferramentas de avaliação também devem evoluir, garantindo que a IA possa apoiar efetivamente os cientistas na busca pelo conhecimento.
Título: BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science
Resumo: Pursuing artificial intelligence for biomedical science, a.k.a. AI Scientist, draws increasing attention, where one common approach is to build a copilot agent driven by Large Language Models (LLMs). However, to evaluate such systems, people either rely on direct Question-Answering (QA) to the LLM itself, or in a biomedical experimental manner. How to precisely benchmark biomedical agents from an AI Scientist perspective remains largely unexplored. To this end, we draw inspiration from one most important abilities of scientists, understanding the literature, and introduce BioKGBench. In contrast to traditional evaluation benchmark that only focuses on factual QA, where the LLMs are known to have hallucination issues, we first disentangle "Understanding Literature" into two atomic abilities, i) "Understanding" the unstructured text from research papers by performing scientific claim verification, and ii) Ability to interact with structured Knowledge-Graph Question-Answering (KGQA) as a form of "Literature" grounding. We then formulate a novel agent task, dubbed KGCheck, using KGQA and domain-based Retrieval-Augmented Generation (RAG) to identify the factual errors of existing large-scale knowledge graph databases. We collect over two thousand data for two atomic tasks and 225 high-quality annotated data for the agent task. Surprisingly, we discover that state-of-the-art agents, both daily scenarios and biomedical ones, have either failed or inferior performance on our benchmark. We then introduce a simple yet effective baseline, dubbed BKGAgent. On the widely used popular knowledge graph, we discover over 90 factual errors which provide scenarios for agents to make discoveries and demonstrate the effectiveness of our approach. The code and data are available at https://github.com/westlake-autolab/BioKGBench.
Autores: Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu, Tiannan Guo, Stan Z. Li, Kaicheng Yu
Última atualização: 2024-06-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.00466
Fonte PDF: https://arxiv.org/pdf/2407.00466
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.ncbi.nlm.nih.gov/pubmed/7602118
- https://www.rcsb.org/structure/6XWD
- https://reactome.org/PathwayBrowser/##/R-HSA-983168
- https://github.com/westlake-autolab/BioKGBench
- https://huggingface.co/api/datasets/AutoLab-Westlake/BioKGBench-Dataset/croissant
- https://news.agpt.co/
- https://gptr.dev/
- https://github.com/westlake-autolab/