Apresentando o IfQA: Um Novo Conjunto de Dados para Raciocínio Contrafactual em QA
IfQA oferece mais de 3.800 perguntas contrafactuais pra desafiar a resposta a perguntas em domínio aberto.
― 7 min ler
Índice
Raciocínio Contrafactual é uma habilidade importante em inteligência que envolve pensar sobre o que poderia ter acontecido de maneira diferente em outras circunstâncias. Porém, ainda não existe um grande conjunto de dados especificamente feito para responder Perguntas em Domínio aberto (QA) que se concentre nesse tipo de raciocínio. Pra resolver essa lacuna, a gente apresenta o conjunto de dados IfQA, que consiste em perguntas baseadas em situações hipotéticas usando cláusulas "se".
Entendendo Perguntas Contrafactuais
Por exemplo, pense na pergunta: "Se Los Angeles estivesse na costa leste dos EUA, qual seria a diferença de horário entre Los Angeles e Paris?" Essa pergunta requer mais do que apenas conhecimento factual; ela pede pra pessoa pensar sobre uma situação contrária aos fatos conhecidos. Responder essas perguntas envolve buscar informações em fontes confiáveis, como a Wikipedia, e raciocinar sobre esse cenário imaginado.
O conjunto de dados IfQA inclui mais de 3.800 perguntas que foram criadas e checadas por trabalhadores. Os testes iniciais mostram que esse conjunto é bem desafiador pra métodos de QA em domínio aberto que já existem. Os modelos atuais têm dificuldade em se sair bem quando enfrentam as demandas únicas do raciocínio contrafactual.
A Necessidade do Raciocínio Contrafactual
O raciocínio contrafactual reflete nossa habilidade de pensar em vários desfechos a partir de eventos passados, especialmente aqueles que na verdade não aconteceram. Ele é um elemento vital que os pesquisadores acreditam que deve fazer parte de qualquer sistema de IA avançado. Mas, não tem muitos recursos disponíveis pra avaliar como diferentes modelos conseguem lidar com raciocínio contrafactual em QA de domínio aberto.
A maioria dos métodos atuais para QA em domínio aberto foca em perguntas factuais simples, como "Qual era a ocupação da Lovely Rita segundo a música dos Beatles?" Esse tipo de pergunta pode ser respondido usando informações facilmente disponíveis na internet.
Quando consideramos perguntas contrafactuais, encontramos uma camada diferente de complexidade. Esse tipo de raciocínio muitas vezes exige uma mudança na compreensão de uma situação com base em cenários hipotéticos, enquanto se mantém em mente o que sabemos sobre a realidade. Pra responder perguntas baseadas em pressuposições contrafactuais, os modelos precisam ir além de apenas buscar fatos.
Estrutura do Conjunto de Dados IfQA
O conjunto de dados IfQA é estruturado de forma que cada pergunta está baseada em uma afirmação contrafactual introduzida por uma cláusula "se". Pra responder a essas perguntas, um modelo precisa primeiro encontrar fatos relevantes em fontes como a Wikipedia. Depois, ele precisa pensar através do raciocínio contrafactual pra chegar numa resposta certa.
Embora algumas pesquisas anteriores tenham tentado lidar com cenários contrafactuais, nenhuma construiu um benchmark dedicado pra avaliar raciocínio contrafactual em situações de QA em domínio aberto. Pra preencher essa lacuna, criamos o conjunto de dados IfQA, que desafia os métodos existentes a se sair melhor em termos de busca e raciocínio.
Coleta do Conjunto de Dados IfQA
As perguntas e respostas no conjunto de dados IfQA foram coletadas usando o Amazon Mechanical Turk, uma plataforma onde trabalhadores completam tarefas em troca de pagamento. Pra garantir uma variedade de perguntas, limitamos cada trabalhador a 30 perguntas. No total, 188 trabalhadores diferentes contribuíram pro conjunto de dados.
O processo de criação do conjunto de dados envolve três etapas principais. Primeiro, passagens relevantes foram extraídas da Wikipedia. Em seguida, os trabalhadores foram encarregados de criar perguntas que exigissem raciocínio contrafactual com base nessas passagens. Por último, validamos a qualidade e a correção das perguntas e respostas através de checagens adicionais.
Passos na Coleta de Dados
Seleção de Passagens: Filtramos passagens da Wikipedia pra identificar aquelas relacionadas a eventos causais usando palavras-chave específicas. Esse método ajudou a coletar passagens que eram adequadas pra criar perguntas contrafactuais.
Anotação de Perguntas: Os trabalhadores receberam passagens aleatórias e foram convidados a formular perguntas. Demos alguns exemplos iniciais pra orientar, mas depois deixamos mais liberdade pra evitar viés nos exemplos. Os trabalhadores também tinham a opção de criar suas próprias perguntas com base no material fornecido.
Anotação de Respostas: Depois que as perguntas foram geradas, os trabalhadores tiveram que fornecer respostas. Caixas adicionais foram oferecidas pra eles incluir outras respostas válidas que conseguissem pensar.
Verificação de Perguntas e Respostas
Pra garantir respostas de alta qualidade, cada pergunta foi avaliada quanto à legibilidade, clareza e correção. Fizemos três perguntas principais durante esse processo de verificação:
- A pergunta é clara e está relacionada à passagem?
- A pergunta exige a passagem pra contexto?
- A resposta fornecida está correta?
Através desse método, buscamos filtrar qualquer pergunta mal formulada ou respostas incorretas.
Análise do Conjunto de Dados IfQA
O conjunto de dados IfQA contém uma variedade de tipos de perguntas, que podem ser categorizados da seguinte forma:
- Entidades: 49,7%
- Datas: 14,5%
- Números: 15,9%
- Outros: 19,9%
O comprimento médio das respostas no IfQA é de cerca de 1,8 palavras, o que é parecido com outros benchmarks de QA. Em relação aos tipos de perguntas, a maioria começa com "o que" (51,7%), seguida por "quem" (14,6%) e outros tipos, com o comprimento médio das perguntas sendo de 22,2 palavras.
No conjunto de dados, 75,1% das respostas são extraídas das passagens fornecidas, enquanto o resto ou exige raciocínio matemático ou combina vários trechos de texto pra chegar à resposta. Curiosamente, algumas perguntas podem ter mais de uma resposta válida, mas essa situação ocorre em apenas 11,2% dos casos.
Testando o Conjunto de Dados IfQA
Criamos duas divisões distintas do conjunto de dados IfQA. A primeira é dedicada ao aprendizado supervisionado tradicional, enquanto a segunda é pra aprendizado de poucos exemplos, permitindo que a gente avalie o desempenho dos modelos em diferentes condições.
O corpus de busca usado pra esse conjunto de dados vem da Wikipedia, que foi processada pra extrair passagens menores e facilitar o acesso. Comparações mostraram que modelos de "livro fechado", que não dependem de informações externas, se saíram mal em comparação com modelos de "livro aberto" que podiam acessar a Wikipedia.
Desafios na Busca
Recuperar informações no IfQA é notavelmente difícil. Tanto métodos de busca tradicionais quanto densos enfrentaram desafios significativos devido à complexidade do raciocínio contrafactual. Em muitos casos, as perguntas eram mais longas do que a maioria dos modelos de busca existentes consegue lidar, tornando mais difícil encontrar passagens precisas.
Além disso, a natureza específica das perguntas contrafactuais muitas vezes significa que documentos relevantes não contêm exatamente as palavras encontradas na pergunta. Assim, a busca baseada puramente na correspondência de palavras tem suas limitações.
Desafios de Leitura e Raciocínio
Uma vez que documentos relevantes são recuperados, o próximo passo é derivar a resposta, o que também apresenta desafios. Modelos atuais, incluindo os de melhor desempenho, têm dificuldade com o raciocínio necessário pra conectar os fatos recuperados a situações hipotéticas.
Até mesmo os modelos mais avançados não conseguem resultados satisfatórios no IfQA porque precisam aplicar raciocínio complexo, especialmente pra cenários que exigem respostas numéricas. A pesquisa mostra que combinar busca e raciocínio melhora significativamente o desempenho geral sobre esse tipo de pergunta.
Conclusão
Resumindo, o IfQA traz um novo conjunto de desafios para QA em domínio aberto ao focar no raciocínio contrafactual. Com mais de 3.800 perguntas únicas, o conjunto empurra os limites do que os métodos atuais conseguem alcançar em busca e raciocínio. Apesar dos desafios, o IfQA busca avançar a pesquisa em QA de domínio aberto e incentivar melhores modelos pra lidar com tarefas de raciocínio complexo.
O conjunto de dados tem certas limitações, principalmente que é só aplicável a perguntas baseadas em eventos. A coleta de dados depende bastante da entrada humana, o que pode introduzir viés. À medida que esse campo evolui, a visão permanece clara - construir modelos mais avançados capazes de entender e processar raciocínios complexos baseados em cenários hipotéticos.
Título: IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions
Resumo: Although counterfactual reasoning is a fundamental aspect of intelligence, the lack of large-scale counterfactual open-domain question-answering (QA) benchmarks makes it difficult to evaluate and improve models on this ability. To address this void, we introduce the first such dataset, named IfQA, where each question is based on a counterfactual presupposition via an "if" clause. For example, if Los Angeles was on the east coast of the U.S., what would be the time difference between Los Angeles and Paris? Such questions require models to go beyond retrieving direct factual knowledge from the Web: they must identify the right information to retrieve and reason about an imagined situation that may even go against the facts built into their parameters. The IfQA dataset contains over 3,800 questions that were annotated annotated by crowdworkers on relevant Wikipedia passages. Empirical analysis reveals that the IfQA dataset is highly challenging for existing open-domain QA methods, including supervised retrieve-then-read pipeline methods (EM score 36.2), as well as recent few-shot approaches such as chain-of-thought prompting with GPT-3 (EM score 27.4). The unique challenges posed by the IfQA benchmark will push open-domain QA research on both retrieval and counterfactual reasoning fronts.
Autores: Wenhao Yu, Meng Jiang, Peter Clark, Ashish Sabharwal
Última atualização: 2023-05-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.14010
Fonte PDF: https://arxiv.org/pdf/2305.14010
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.