Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avaliando Agentes de IA na Pesquisa Biomédica

Um novo padrão pra avaliar o desempenho de agentes de IA em literatura biomédica e gráficos de conhecimento.

― 6 min ler


IA na Avaliação deIA na Avaliação dePesquisa BiomédicaIA na ciência.Um padrão pra avaliar as capacidades da
Índice

A inteligência artificial (IA) tá fazendo sucesso em várias áreas, e a ciência biomédica não é diferente. Um método popular é criar agentes de IA que trabalham junto com humanos, aproveitando uma quantidade enorme de informações. Mas avaliar o desempenho desses agentes de IA nesse contexto biomédico é bem complicado. A maioria das avaliações se baseia em perguntas diretas para os modelos de IA ou em métodos experimentais relacionados à pesquisa biomédica. Este artigo quer focar em uma nova forma de medir as capacidades dos agentes de IA na área biomédica, especialmente na compreensão de literatura e na interação com Grafos de Conhecimento.

Contexto

Os modelos de IA atuais, especialmente os grandes modelos de linguagem (LLMs), mostraram tanto potencial quanto limitações. Eles conseguem gerar texto e resumir informações de forma eficiente, mas muitas vezes têm dificuldade com a precisão factual. Isso leva à ideia de que, para um agente de IA ser realmente útil na pesquisa biomédica, ele precisa ter duas habilidades: a capacidade de entender e verificar a literatura científica e a habilidade de se envolver com formas estruturadas de conhecimento, especialmente grafos de conhecimento.

Uma Nova Tarefa para Agentes: Verificação de Grafos de Conhecimento

Pra resolver a necessidade de uma melhor avaliação desses agentes de IA, a gente propõe uma tarefa nova chamada Verificação de Grafos de Conhecimento (KGCheck). Essa tarefa se divide em duas habilidades principais:

  1. Perguntas e Respostas sobre Grafos de Conhecimento (KGQA): Isso envolve consultar um grafo de conhecimento pra recuperar informações enquanto mantém a precisão.
  2. Verificação de Afirmações Científicas (SCV): Isso foca na análise das afirmações feitas na literatura científica e na avaliação da veracidade delas com base nas evidências apresentadas.

A Importância da Revisão de Literatura

Uma habilidade crucial de qualquer cientista é a capacidade de revisar e entender a literatura existente. A revisão de literatura é mais do que apenas ler; envolve pensamento crítico e análise de várias fontes de informação. Ao permitir que agentes de IA se envolvam na revisão de literatura, podemos aumentar a utilidade deles na pesquisa científica.

Limitações dos Métodos Existentes

Os métodos atuais para avaliar agentes de IA tendem a focar em tarefas simples de perguntas e respostas, que não capturam a complexidade da investigação científica. Os benchmarks existentes podem não avaliar bem como um agente de IA pode usar conhecimento e ferramentas externas para validar informações.

Grafos de Conhecimento: Uma Ferramenta Útil

Grafos de conhecimento servem como uma maneira sofisticada de organizar e armazenar grandes quantidades de dados de uma forma que é fácil de consultar e analisar. Eles contêm informações interconectadas, permitindo que agentes de IA acessem conhecimento estruturado que complementa os dados não estruturados encontrados na literatura científica.

O Desafio de Manter o Conhecimento Atualizado

Embora os grafos de conhecimento possam ser extremamente úteis, um grande problema é a sua natureza estática, que pode levar a informações desatualizadas. Isso é especialmente preocupante em um campo que avança rapidamente como a ciência biomédica, onde novas pesquisas podem rapidamente tornar estudos anteriores obsoletos.

Nosso Benchmark Proposto

Pra criar uma avaliação mais eficaz para os agentes de IA, a gente propõe um benchmark abrangente chamado KGCheck. Este benchmark tem como objetivo verificar a correção das informações nos grafos de conhecimento comparando com a literatura e outras fontes confiáveis. O objetivo final é avaliar quão bem um agente de IA pode processar tanto dados estruturados (como grafos de conhecimento) quanto dados não estruturados (como artigos científicos).

Metodologia

Ao executar a tarefa KGCheck, os agentes precisarão:

  1. Consultar grafos de conhecimento pra extrair informações relevantes.
  2. Fazer uma comparação cruzada desses dados extraídos com literatura externa ou bancos de dados pra verificar a precisão.
  3. Determinar se as informações estão alinhadas com o que se conhece de fontes respeitáveis.

Coleta de Dados

Para a tarefa KGCheck, a gente coletou vários conjuntos de dados, incluindo:

  • Mais de 700 perguntas para o componente KGQA.
  • Uma coleção de afirmações científicas para a tarefa SCV.

Esses dados foram coletados de várias fontes biomédicas confiáveis, permitindo que a gente criasse uma estrutura de avaliação robusta.

Descobertas Iniciais

Depois de avaliar vários agentes de IA usando nosso benchmark, observamos que muitos deles tiveram dificuldade em atingir os níveis de desempenho esperados. Principalmente, agentes de ponta frequentemente não conseguiam verificar com precisão os dados dos grafos de conhecimento e entender as afirmações científicas.

Apresentando o BKGAgent

Pra melhorar ainda mais o processo de avaliação, a gente introduziu um novo agente chamado BKGAgent. Esse é um sistema multi-agente equipado com os componentes necessários pra interagir de forma eficaz com grafos de conhecimento e literatura. Ele consiste em:

  • Um líder de equipe, que gerencia o processo.
  • Um agente KG, responsável por consultar o grafo de conhecimento.
  • Um agente de validação, encarregado de verificar a correção das informações recuperadas.

Avaliação de Desempenho

Fizemos testes rigorosos em vários agentes de IA no nosso benchmark, focando na capacidade deles de completar tanto as tarefas KGQA quanto SCV. Os resultados destacaram discrepâncias significativas de desempenho entre os diferentes agentes, mostrando a necessidade do nosso novo método de avaliação.

Conclusões

À medida que a IA continua a desempenhar um papel fundamental na pesquisa biomédica, avaliar corretamente suas capacidades é essencial. Nosso benchmark KGCheck representa um avanço na compreensão de como os agentes de IA podem auxiliar pesquisadores. Através de testes sistemáticos das habilidades deles de acessar e validar conhecimento, podemos avaliar melhor a utilidade deles nas empreitadas científicas.

Trabalho Futuro

Olhando pra frente, a gente planeja refinar a estrutura do KGCheck, permitindo avaliações ainda mais detalhadas dos agentes de IA. O nosso objetivo é permitir que eles corrijam continuamente erros em tempo real, melhorando assim o desempenho ao longo do tempo. Outras adaptações podem incluir a integração de bancos de dados adicionais, expandindo o escopo das afirmações e explorando como esses agentes podem identificar e corrigir de forma autônoma imprecisões nos grafos de conhecimento.

Considerações Finais

Ao conectar a revisão de literatura e a interação com grafos de conhecimento, nosso benchmark proposto promete melhorar o papel da IA na ciência biomédica. À medida que o campo evolui, nossas ferramentas de avaliação também devem evoluir, garantindo que a IA possa apoiar efetivamente os cientistas na busca pelo conhecimento.

Fonte original

Título: BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

Resumo: Pursuing artificial intelligence for biomedical science, a.k.a. AI Scientist, draws increasing attention, where one common approach is to build a copilot agent driven by Large Language Models (LLMs). However, to evaluate such systems, people either rely on direct Question-Answering (QA) to the LLM itself, or in a biomedical experimental manner. How to precisely benchmark biomedical agents from an AI Scientist perspective remains largely unexplored. To this end, we draw inspiration from one most important abilities of scientists, understanding the literature, and introduce BioKGBench. In contrast to traditional evaluation benchmark that only focuses on factual QA, where the LLMs are known to have hallucination issues, we first disentangle "Understanding Literature" into two atomic abilities, i) "Understanding" the unstructured text from research papers by performing scientific claim verification, and ii) Ability to interact with structured Knowledge-Graph Question-Answering (KGQA) as a form of "Literature" grounding. We then formulate a novel agent task, dubbed KGCheck, using KGQA and domain-based Retrieval-Augmented Generation (RAG) to identify the factual errors of existing large-scale knowledge graph databases. We collect over two thousand data for two atomic tasks and 225 high-quality annotated data for the agent task. Surprisingly, we discover that state-of-the-art agents, both daily scenarios and biomedical ones, have either failed or inferior performance on our benchmark. We then introduce a simple yet effective baseline, dubbed BKGAgent. On the widely used popular knowledge graph, we discover over 90 factual errors which provide scenarios for agents to make discoveries and demonstrate the effectiveness of our approach. The code and data are available at https://github.com/westlake-autolab/BioKGBench.

Autores: Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu, Tiannan Guo, Stan Z. Li, Kaicheng Yu

Última atualização: 2024-06-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.00466

Fonte PDF: https://arxiv.org/pdf/2407.00466

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes