Hybrid-SQuAD: O Futuro do Q&A Acadêmico
Um conjunto de dados que junta texto e dados estruturados pra melhorar as respostas a perguntas acadêmicas.
Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
― 4 min ler
Índice
No mundo da pesquisa, achar respostas precisas para as perguntas pode ser complicado. Muitos sistemas que tentam responder essas perguntas geralmente focam em um tipo de dado, seja texto ou gráficos. Mas, as informações acadêmicas geralmente vêm de uma mistura de fontes diferentes. Pra resolver esse problema, foi criado um novo conjunto de dados chamado Hybrid-SQuAD. Esse conjunto ajuda os sistemas a responder perguntas puxando informações tanto de texto quanto de dados estruturados.
O que é Hybrid-SQuAD?
Hybrid-SQuAD significa Conjunto de Dados Híbrido de Perguntas e Respostas Acadêmicas. É uma grande coleção de perguntas e respostas projetadas pra melhorar como podemos responder questões acadêmicas. Esse conjunto contém cerca de 10.500 pares de perguntas e respostas gerados por um modelo de computador poderoso. As perguntas vêm de várias fontes, incluindo bases de dados como DBLP e SemOpenAlex, e texto da Wikipedia. O objetivo é garantir que as respostas possam ser encontradas olhando pra várias fontes em vez de só uma.
A Necessidade de Abordagens Híbridas
As perguntas acadêmicas costumam precisar de informações que estão espalhadas por diferentes lugares. Por exemplo, alguém pode precisar olhar pra um Grafo de Conhecimento (KG) que lista publicações e depois checar a Wikipedia pra mais detalhes sobre os autores. Uma pergunta típica poderia ser: "Qual é o principal interesse de pesquisa do autor de um trabalho específico?" Essa pergunta não pode ser respondida só olhando pra uma fonte; tanto informações gráficas quanto textuais são necessárias. É aí que a Hybrid-SQuAD entra, facilitando juntar todos os dados necessários pra respostas.
Construção do Conjunto de Dados
Criar esse conjunto de dados envolveu um processo cuidadoso:
-
Coleta de Dados: A equipe reuniu dados do DBLP, uma base de dados de publicações em ciência da computação, e do SemOpenAlex, que contém informações acadêmicas. Eles também coletaram textos relacionados da Wikipedia.
-
Geração de Perguntas: Usando um modelo de linguagem, eles criaram perguntas baseadas nas informações coletadas. O modelo produziu pares de perguntas e respostas que refletem a complexidade das investigações acadêmicas.
-
Verificação de Qualidade: Os pesquisadores checaram as perguntas geradas pra garantir que eram claras e faziam sentido. Quaisquer perguntas que tinham respostas incompletas foram revisadas pra melhorar a qualidade.
Tipos de Perguntas no Hybrid-SQuAD
As perguntas nesse conjunto cobrem vários tipos:
-
Perguntas de Conexão: Essas requerem ligar dados de diferentes fontes pra encontrar respostas. Por exemplo, descobrir contagens de citação de um autor envolvido em um trabalho específico.
-
Perguntas de Comparação: Essas pedem comparações entre entidades, como determinar qual autor tem uma contagem de citações mais alta.
-
Perguntas Baseadas em Texto: Algumas perguntas envolvem extrair informações específicas de texto, como o foco principal de pesquisa de um autor.
-
Perguntas Complexas: Algumas perguntas pedem informações que precisam de dados de várias fontes, requerendo tanto dados textuais quanto gráficos pra encontrar respostas.
Desempenho do Modelo
Pra ver como os sistemas poderiam responder a essas perguntas, um modelo base foi desenvolvido. Esse modelo conseguiu alcançar uma taxa de precisão impressionante de mais de 69%, demonstrando sua eficácia em responder perguntas da Hybrid-SQuAD. Em contraste, modelos populares como o ChatGPT tiveram dificuldades, alcançando apenas cerca de 3% de precisão quando testados sem contexto.
Importância do Hybrid-SQuAD
Hybrid-SQuAD é essencial porque incentiva mais progresso em como respondemos perguntas acadêmicas complexas. Ao empurrar os limites de sistemas e metodologias existentes, pode ajudar a estabelecer novos padrões na pesquisa acadêmica e na integração de dados.
Conclusão
Hybrid-SQuAD é um passo significativo pra melhorar como abordamos perguntas acadêmicas. Ao combinar diferentes tipos de dados e criar um recurso rico pra construir melhores sistemas de perguntas e respostas, visa aumentar a precisão e eficiência da pesquisa acadêmica. Quem diria que responder perguntas de pesquisa poderia gerar tanta empolgação? Agora os pesquisadores têm mais uma ferramenta no arsenal, tornando a busca pelo conhecimento um pouco mais fácil e muito mais divertida.
Título: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
Resumo: Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.
Autores: Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck
Última atualização: Dec 5, 2024
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.02788
Fonte PDF: https://arxiv.org/pdf/2412.02788
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.w3.org/TR/rdf-sparql-query/
- https://dblp.org
- https://semopenalex.org/resource/semopenalex:UniversalSearch
- https://orkg.org
- https://openai.com/blog/chatgpt
- https://github.com/semantic-systems/hybrid-squad
- https://www.quora.com/
- https://stackexchange.com/
- https://www.mturk.com/
- https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct
- https://sbert.net
- https://huggingface.co/google/flan-t5-small
- https://huggingface.co/deepset/bert-base-cased-squad2
- https://blog.dblp.org/2022/03/02/dblp-in-rdf/
- https://semopenalex.org/authors/context
- https://semopenalex.org/institutions/context
- https://dblp-april24.skynet.coypu.org/sparql
- https://semoa.skynet.coypu.org/sparql
- https://drive.google.com/file/d/1ISxvb4q1TxcYRDWlyG-KalInSOeZqpyI/view?usp=drive_link
- https://orcid.org
- https://pypi.org/project/beautifulsoup4/
- https://huggingface.co/BAAI/bge-small-en-v1.5
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://www.w3.org/1999/02/
- https://dblp.org/rdf/schema#
- https://semopenalex.org/ontology/
- https://purl.org/spar/bido/
- https://dbpedia.org/ontology/
- https://dbpedia.org/property/
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/ns/org#
- https://www.w3.org/
- https://www.w3.org/2002/07/owl#