Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Melhorando Tabelas de Recursos em Pesquisa Científica

Sistemas automatizados melhoram a clareza e a precisão das tabelas de recursos em artigos científicos.

― 8 min ler


Reformulando Tabelas deReformulando Tabelas deRecursoscientíficos.problemas na representação de dadosSistemas automatizados resolvem
Índice

Tabelas de recursos são usadas em artigos científicos para listar itens importantes como reagentes químicos, anticorpos, linhagens celulares e ferramentas de software. Elas ajudam os pesquisadores a compartilhar os detalhes dos seus estudos de forma clara. Tem rolado uns problemas com como esses recursos são apresentados nos artigos, gerando confusão e dificultando para outros pesquisadores repetirem os experimentos. Isso tem contribuído para a falta de confiança em algumas descobertas científicas.

Um formato eficaz para essas tabelas é o STARTable. Ele usa um layout simples de três colunas que destaca as informações que estão faltando. Antes dessas tabelas serem comuns, apenas uma pequena porcentagem dos anticorpos usados nos estudos eram corretamente identificados. Depois que começaram a usar STARTables, a taxa de identificação aumentou bastante, facilitando para outros replicarem os estudos. A simplicidade dessas tabelas incentiva os autores a verificarem suas informações, o que pode melhorar bem a clareza e a confiabilidade do trabalho deles.

Problemas Comuns com Tabelas de Recursos

Apesar de serem úteis, as tabelas de recursos costumam ter problemas. Muitos periódicos não obrigam o uso de tabelas padrão, levando a lacunas nas informações importantes. Os preprints, que são versões preliminares de artigos de pesquisa, frequentemente são enviados sem as checagens adequadas, tornando-se uma área propensa a omissões nas tabelas de recursos.

Para ajudar os autores de preprints, foi proposta a geração automática de tabelas de recursos. Usando a tecnologia para criar tabelas a partir do texto dos artigos, os autores podem rapidamente ver quais informações estão faltando e corrigir erros. No entanto, alguns autores já incluem suas tabelas, o que torna necessário identificar e exibir essas tabelas existentes de forma precisa.

Criar tabelas de recursos a partir de documentos pode ser desafiador. As tabelas podem estar em diferentes formatos e detectar a estrutura correta requer uma análise cuidadosa. Erros costumam ocorrer quando o texto nas tabelas não está alinhado corretamente devido à forma como as tabelas são representadas nos documentos originais.

A Importância da Estrutura da Tabela

As tabelas consistem em dois componentes principais: entradas de dados e rótulos que ajudam a localizar essas entradas. Os rótulos podem formar uma hierarquia que orienta como ler a tabela. Compreender essa estrutura é crucial para extrair informações com precisão.

Ao trabalhar com documentos digitais, surgem problemas pela forma como as tabelas estão dispostas. O processamento da linguagem humana pode ter dificuldades com as relações de longa distância entre rótulos e dados. Além disso, erros podem ocorrer durante o processo de Reconhecimento Óptico de Caracteres (OCR), onde o texto é convertido de imagens escaneadas de volta para texto digital. Mesmo um pequeno erro pode gerar confusão significativa, especialmente quando números ou identificadores estão envolvidos.

Detecção e Reconhecimento de Tabelas

Esforços para melhorar a extração de tabelas de documentos envolvem o uso de tecnologias avançadas. Métodos antigos dependiam de regras simples, mas as abordagens modernas usam técnicas de aprendizado profundo que analisam imagens para detectar tabelas. Esses métodos exigem grandes quantidades de dados rotulados.

Para apoiar esses métodos, bancos de dados existentes fornecem artigos em formatos que podem ser usados para gerar dados rotulados para treinamento. Por exemplo, um banco de dados contém milhões de artigos em um formato estruturado que inclui tabelas. Ao vincular essas tabelas às suas imagens correspondentes, os pesquisadores podem criar conjuntos de treinamento que melhoram a precisão dos métodos de extração de tabelas.

Criando um Sistema para Detecção Automática

Para encontrar automaticamente as principais tabelas de recursos em documentos científicos, um sistema de pipeline em várias etapas foi desenvolvido. Esse sistema identifica páginas que provavelmente contêm tabelas de recursos e, em seguida, detecta as bordas das tabelas e as células individuais dentro delas.

O primeiro passo desse sistema é determinar se uma página inclui uma tabela de recurso chave. Isso é feito usando classificadores que analisam o texto e a estrutura da página. Uma vez que uma página é identificada, o sistema pode aplicar modelos avançados para detectar tabelas e seus layouts específicos.

O processo de extração inclui criar bordas para colunas e linhas, o que ajuda a organizar os dados corretamente. É vital que o sistema reconheça quando o texto em uma célula pode transbordar para outra, levando a possíveis erros de dados.

Superando Desafios Comuns

Muitos desafios podem surgir durante a extração de tabelas. Por exemplo, se os caracteres no texto estiverem muito próximos uns dos outros, eles podem ser lidos incorretamente, levando a erros nos dados finais. Tabelas que se espalham por várias páginas também podem causar confusão se as informações estiverem divididas entre cabeçalhos e conteúdo real.

Um problema comum é que os autores podem não perceber quando o texto transborda de uma célula para outra. Isso pode criar erros ocultos nos dados que só são visíveis quando o texto é extraído. Além disso, nem todas as tabelas são estruturadas da mesma maneira, o que dificulta assumir que linhas ou colunas sempre representam o mesmo tipo de informação.

Usando Reconhecimento Óptico de Caracteres

O reconhecimento óptico de caracteres (OCR) é uma ferramenta vital no processo de extração de tabelas. Ele converte imagens de texto de volta em texto editável. No entanto, o OCR pode introduzir erros. Mesmo um pequeno erro em um número de catálogo ou identificador pode levar a problemas significativos na compreensão de dados científicos.

Para melhorar os resultados do OCR, imagens de células individuais podem ser processadas para melhor precisão. Técnicas como conversão de imagens para escala de cinza e aumento de contraste ajudam a garantir que o texto seja reconhecido corretamente. Apesar das melhorias, os erros de OCR continuam sendo uma preocupação, especialmente para identificar recursos-chave que exigem precisão.

Modelagem de Linguagem para Melhor Precisão

Uma abordagem nova para melhorar a extração de dados é usar modelos de linguagem treinados especificamente com a linguagem usada em tabelas científicas. Ao analisar uma grande quantidade de tabelas existentes, os modelos podem aprender a prever como o conteúdo é organizado e tomar melhores decisões sobre a fusão de conteúdo de células transbordantes.

Esse modelo se baseia na previsão do próximo caractere em uma sequência, permitindo que ele compreenda os padrões e as estruturas comuns em dados científicos. Ele utiliza uma configuração onde processa caracteres em vez de palavras inteiras, já que o conteúdo das tabelas é tipicamente compacto e preenchido com números e símbolos.

Criando Dados Simulados para Treinamento

Treinar modelos precisos exige grandes quantidades de dados rotulados. No entanto, rotular tabelas reais pode ser demorado. Em vez disso, os pesquisadores podem criar dados de treinamento simulados selecionando tabelas conhecidas por ter conteúdo transbordando e gerando exemplos com base nas suas estruturas originais.

Ao focar em tabelas de recursos-chave que provavelmente serão complexas, conjuntos de dados simulados podem ajudar a treinar modelos para reconhecer padrões de fusão de forma eficaz. Essas simulações oferecem exemplos positivos e negativos para o treinamento, permitindo que os modelos aprendam quando o conteúdo deve ser mesclado ou tratado como entradas separadas.

Avaliando o Desempenho da Extração

Para avaliar como os sistemas de extração estão se saindo, é necessário estabelecer um conjunto padrão de tabelas reconstruídas. Isso envolve revisar uma coleção de preprints, selecionando aqueles que provavelmente contenham tabelas de recursos-chave e avaliando manualmente os resultados do processo de extração.

Diferentes métodos de extração são comparados com esse padrão de ouro para determinar qual deles tem o melhor desempenho. O objetivo é encontrar pipelines que consistently yield accurate and reliable table reconstructions.

Resultados e Análise

Ao testar vários métodos de extração, foram observadas diferenças significativas no desempenho. Alguns sistemas, como o GROBID, tiveram dificuldades em detectar tabelas de recursos-chave com precisão, identificando apenas uma pequena fração delas corretamente. Outros sistemas que utilizam técnicas avançadas, como modelos de linguagem, mostraram taxas de precisão muito mais altas.

Ao agrupar os testes com base em diferentes metodologias de extração, ficou claro que os sistemas que usaram tanto técnicas estruturais quanto de modelagem de linguagem se saíram melhor. Problemas frequentemente surgiam com as bordas das linhas, onde espaçamentos similares entre as linhas geraram erros. Os sistemas mais bem-sucedidos se adaptaram implementando modelos que aprenderam a mesclar linhas de forma precisa.

Conclusão

No geral, o desenvolvimento de sistemas automatizados para extrair tabelas-chave de recursos mostrou-se promissor para enfrentar os desafios enfrentados pelos pesquisadores. Ao usar métodos de detecção avançados e modelos de linguagem adaptados ao contexto científico, esses sistemas podem melhorar a clareza e a confiabilidade da pesquisa publicada. O foco em corrigir os erros existentes na extração de tabelas pode ajudar a aliviar a crise da reprodutibilidade e aumentar a transparência da literatura científica.

Com a comunidade científica continuando a depender de uma representação precisa dos dados, melhorias contínuas nesses sistemas automatizados serão cruciais para apoiar a integridade das descobertas de pesquisa.

Fonte original

Título: Automatic Detection and Extraction of Key Resources from Tables in Biomedical Papers

Resumo: Tables are useful information artifacts that allow easy detection of data "missingness" by humans and have been deployed by several publishers to improve the amount of information present for key resources and reagents such as antibodies, cell lines, and other tools that constitute the inputs to a study. The STAR*Methods tables, specifically, have increased the "findability" of these key resources, but they have not been commonly available outside of the Cell Press journal family. To improve the availability of these tables in the broader biomedical literature, we have attempted to automatically process BioRxiv preprints to create tables from text or to recognize tables already created by authors and structure them for later use by publishers and search systems, to improve "findability" of resources in a larger amount of the scientific literature. The extraction of key resource tables in PDF files by the best in class tools resulted in Grid Table Similarity (GriTS) score of 0.12, so we have created several multimodal pipelines employing machine learning approaches for key resource table page identification, Table Transformer models for table detection and table structure recognition and a new table-specific language model for row over-segmentation to improve the extraction of text in tables created by biomedical authors and published on BioRxiv to around GriTS score of 0.90 enabling the deployment of automated research resource extraction tools onto BioRxiv. Author summaryTables are useful information artifacts that allow for easy detection of data "missingness" by humans and have been implemented by several publishers to improve the amount of information present for key resources and reagents such as antibodies, cell lines, and other tools that constitute the inputs to a study. To improve the availability of these tables in the broader biomedical literature, we introduced four pipelines for key resource table extraction from biomedical documents in PDF format. Our approach reconstructs key resource tables using image level table detection and structure detection generated table boundary, column (and row) bounding box information together with PDF text alignment. To remedy row over-segmentation resulting from overflowing table cell contents, we introduced a language modeling (LM) based row merging solution where a character-level generative pre-trained transformer (GPT) model was pre-trained on more than 11 million scientific table contents from PubMed Central Open Access Subset (PMC OAS). All introduced pipelines significantly outperformed GROBID baseline while our Table LM based row merging based pipeline, significantly outperformed all other pipelines including our OCR based pipeline.

Autores: Ibrahim Burak Ozyurt, A. Bandrowski

Última atualização: 2024-10-17 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.15.618379

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.15.618379.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes