Avaliando a Consistência Factual na Resumização de Texto
Um novo método pra checar a veracidade de resumos gerados por computador usando Rotulagem de Papéis Semânticos.
― 12 min ler
Índice
Nos tempos recentes, a checagem automática de textos gerados por computadores virou algo bem importante. Um dos grandes pontos de preocupação é ver se esses textos continuam fiéis às fontes originais. Muitos métodos atuais dependem de modelos de linguagem específicos, o que pode dificultar a interpretação das notas que eles dão.
A gente apresenta uma nova forma de avaliar texto, focando em sumarização. Nosso novo método funciona sem precisar de um texto de referência e se baseia em algo chamado Rotulagem de Papéis Semânticos (SRL). Essa técnica ajuda a criar tuplas de fatos tanto do texto original quanto do resumo. No final, calculamos uma nota para dizer quão factual é o resumo comparado ao texto original. Esse sistema consegue se adaptar facilmente a diferentes áreas de uso.
Testamos nossa abordagem em relação a julgamentos humanos em datasets de resumos em inglês e descobrimos que ela compete bem com outros métodos avançados, além de ser estável em diferentes datasets. Investigamos a utilização da resolução de co-referência, mas percebemos que o computo extra necessário não justificava a pequena melhora no desempenho.
O principal problema com os sistemas de sumarização de texto atuais é que suas saídas muitas vezes não combinam com o que os humanos preferem. Uma questão chave é a Factualidade, que se refere a quão de perto os fatos nos resumos gerados correspondem aos do texto original. A falta de foco nesse aspecto durante o treinamento do modelo pode levar a textos gerados que contêm informações inventadas, o que pode prejudicar como as pessoas veem seu desempenho.
Estudos anteriores tentaram criar métricas para checar a factualidade em textos gerados. Uma das primeiras ideias foi mostrar o texto como uma série de "tuplas de fatos" como (sujeito, predicado, objeto) tripletas. No entanto, esse método tem algumas limitações, já que o sujeito ou objeto pode mudar dependendo da estrutura da frase, dificultando a avaliação de quão bem os resumos combinam com as avaliações humanas.
A SRL nos permite representar significados de uma forma que não depende da estrutura da frase. Nossa métrica se baseia em tuplas de fatos similares a trabalhos anteriores, mas tem várias diferenças importantes. Por exemplo, criamos uma representação de fato mais detalhada usando SRL para produzir significados abstratos de frases, independentemente da sintaxe. As tuplas são geradas a partir do texto de entrada, em vez de textos resumidos, tornando nossa abordagem livre de referência e utilizável sem a necessidade de datasets rotulados.
Introduzimos uma nova forma de comparar tuplas de fatos com pesos ajustáveis para permitir que os usuários ajustem o método. Também testamos diferentes partes do nosso método, incluindo a etapa opcional de resolução de co-referência e várias maneiras de pontuar a similaridade.
Explicação Visual do Método
O método transforma um texto de entrada e seu resumo em uma série de tuplas de fatos através da extração via SRL. A nota final de factualidade é então calculada com base em quão semelhantes os fatos no resumo são aos do texto original. Nosso método utiliza apenas software disponível publicamente e pode ser aplicado a diferentes línguas, desde que exista um modelo SRL bom o suficiente.
Uma vantagem significativa da nossa abordagem é que ela é interpretável. Enquanto outros métodos geralmente dependem de modelos complexos, que não oferecem razões claras para suas notas, nosso método usando tuplas de fatos permite uma compreensão mais fácil de como as notas foram alcançadas.
Há também evidências de que muitos métodos de avaliação existentes apresentam um viés em relação a saídas de modelos que são semelhantes ao avaliador. Isso levanta questões sobre a confiabilidade deles em comparação com nossa abordagem interpretável.
Mostramos que nosso método correlaciona com as notas humanas, tornando-o comparável a métricas existentes. Também testamos várias escolhas algorítmicas para ver como elas afetavam nossos resultados.
Trabalho Relacionado
A análise automatizada de resumos ganhou mais atenção, especialmente com o surgimento de vários sistemas de sumarização. Métodos anteriores propuseram uma forma baseada em referências para avaliar a factualidade em resumos gerados, usando tuplas de fatos extraídas com base em um modelo fracamente supervisionado. Infelizmente, não há versão pública do método deles disponível.
Outros estudos introduziram métodos baseados em implicação textual e perguntas-respostas para estimar a factualidade, mas esses requerem ajustes em datasets específicos, tornando-os caros em termos de esforço.
Outra tentativa de usar SRL para avaliação de factualidade agrega "baldes de papéis" a nível de documento, mas não cria tuplas de fatos específicas, levando a uma correlação pior com as notas humanas em comparação com nosso método. Algumas abordagens até tratam a estimativa de factualidade como uma tarefa de adivinhar partes faltantes de um resumo gerado, o que pode restringir os métodos utilizados.
Outros trabalhos tentaram usar modelos de linguagem diretamente para estimar consistência factual. Por exemplo, alguns métodos usam versões de textos gerados por modelos para criar alinhamentos para pontuação, enquanto outros dependem de probabilidades de modelos para avaliar a factualidade.
A maior parte dos trabalhos anteriores mediu o desempenho com base em quão bem suas métricas alinham-se com os julgamentos humanos. Alguns datasets para esse propósito estão disponíveis para coleções de sumarização amplamente utilizadas, mas o número de exemplos analisados por humanos costuma ser pequeno, dificultando a obtenção de resultados significativos.
Avaliando Nossa Métrica de Consistência
Nosso método para pontuar consistência factual tem duas etapas principais. Primeiro, as tuplas de fatos são criadas usando SRL tanto para o texto fonte quanto para o texto resumido. Em seguida, uma nota de factualidade é determinada com base em uma comparação dessas tuplas. A nota resultante varia de 0 a 1, com números mais altos sugerindo melhor consistência.
Gerando Tuplas de Fatos
Trabalhamos principalmente no nível da frase porque as ferramentas SRL existentes funcionam bem nesse contexto. O objetivo é construir um banco de dados de tuplas de fatos para cada texto de entrada. Usando SRL, identificamos componentes-chave em cada frase e os rotulamos de acordo com seus papéis. Alguns papéis comuns que buscamos incluem agente, paciente, tempo e local.
Porém, nem toda frase vai incluir todos esses papéis. Rótulos faltantes são marcados como None em nosso trabalho. Ao usar papéis, revelamos o significado por trás das ações nas frases. Uma única frase pode gerar várias tuplas de fatos com base na quantidade de verbos que possui.
Como exemplo, uma frase pode gerar uma tupla como (Mueller, None, deu, um livro, para Mary, ontem, em Berlim).
Pontuando com Base na Comparação
Uma vez que temos as tuplas de fatos tanto do texto de entrada quanto do resumo, o próximo passo é pontuar a precisão factual delas. Desenvolvemos um sistema de pontuação que melhora um método de comparação mais simples.
Definimos uma função de pontuação para expressar quanto apoio uma tupla do resumo recebe de uma tupla de entrada. Em seguida, tentamos encontrar a melhor correspondência para cada fato do resumo, visando maximizar a nota de apoio. Nosso método usa todas as tuplas de fatos disponíveis em vez de apenas subconjuntos que atendem a certos critérios.
Em resumo, a precisão factual é calculada ao se fazer uma média das notas para todas as tuplas no resumo. A comparação de tuplas considera atributos úteis das tuplas de fatos, atribuindo pesos estáticos a diferentes posições na tupla.
Às vezes, certos pesos podem não combinar com o caso específico de avaliação de resumo onde um resumo poderia estar correto mesmo se deixar de fora alguns detalhes. Portanto, introduzimos uma forma de ajustar os pesos com base nos atributos atuais presentes no fato do resumo.
Isso ajuda a aumentar as penalidades para erros reais enquanto não pune por omissões simples.
Métodos para Medir Similaridade
Experimentamos várias formas de determinar similaridade, incluindo correspondência exata e aproximações como uso de similaridade de vetores de palavras ou precisão ROUGE-1. Cada método tem suas vantagens. Vetores de palavras são mais flexíveis e permitem comparações semânticas em vez de apenas checar correspondências sintáticas. Enquanto isso, ROUGE-1 consegue calcular notas mais rápido e ainda reconhece correspondências parciais.
Resolução de Co-referência
Para melhorar a precisão de nossas tuplas, integramos uma etapa opcional para lidar com a resolução de co-referência. Isso significa identificar todas as expressões que se referem à mesma entidade ao longo do texto. Por exemplo, se uma frase usa o nome "Mary", mas depois a chama de "ela", nosso sistema será capaz de reconhecer que se referem à mesma pessoa.
Adicionamos tuplas considerando todos os nomes reconhecidos para o mesmo tipo de entidade, o que melhora a capacidade do nosso método em combinar fatos entre diferentes frases. Porém, expandir tuplas dessa forma vem com um custo de tempo de processamento aumentado.
Datasets de Avaliação
Testamos nosso método em dois datasets. O primeiro, QAGS, tem duas partes: uma com instâncias do CNN/DailyMail e outra do XSUM. O segundo dataset, SummEval, inclui resumos sintetizados de vários modelos. No SummEval, os resumos foram avaliados por um painel de juízes que classificaram diferentes aspectos, incluindo consistência factual.
Métricas de Avaliação e Significância
Para medir quão bem nossa métrica funciona, observamos o quão de perto ela se alinha com os julgamentos humanos usando correlações de Pearson e Spearman. Devido ao pequeno tamanho dos datasets, também verificamos a significância usando testes de permutação.
Resultados e Comparação com Outros Métodos
Nos nossos resultados principais, descobrimos que métricas especializadas para checar factualidade geralmente se saíram melhor do que métricas de sumarização genéricas. Embora nossas notas tenham melhorado, nem todas foram significativamente melhores do que as de outros métodos existentes, especialmente em certos datasets.
Quando testamos nosso método, notamos melhorias muito significativas na correlação especificamente para CNN/DailyMail e SummEval. Outros métodos, como BARTScore e CoCo, foram ajustados para datasets específicos, o que pode fazer seus resultados serem melhores para aqueles casos específicos. Em contraste, nosso método se mantém versátil entre diferentes datasets.
Estudo de Ablação
Dadas as limitações dos métodos de avaliação genéricos, realizamos estudos de ablação para explorar como diferentes escolhas em nosso método afetaram os resultados. Descobrimos que incluir atributos mais detalhados nas tuplas melhorou significativamente as correlações com as notas humanas.
Também notamos diferenças no desempenho com base nos métodos usados para pontuar similaridade. Geralmente, usar similaridade de vetores ou ROUGE levou a notas melhores do que mera correspondência exata. Isso está alinhado com a ideia de que resumos mais complexos podem exigir correspondências mais sofisticadas.
Impacto de Pesagem Dinâmica
Analisamos como nosso sistema de pesagem dinâmica contribuiu para nossas notas. Quando comparamos nossa abordagem dinâmica a uma com pesos fixos, descobrimos que redistribuir pesos dinamicamente funcionou bem, embora as melhorias específicas não tenham sempre alcançado significância estatística.
Análise de Erros
Para entender melhor as limitações do nosso método, olhamos para instâncias específicas onde as notas do nosso sistema não corresponderam aos julgamentos humanos. Observamos que avaliadores humanos tendem a ser rigorosos em relação a erros, muitas vezes reduzindo a nota significativamente se um único erro for encontrado. Em contraste, nossa métrica muitas vezes considerou a correspondência geral de forma mais indulgente, o que resultou em notas muito diferentes.
Conclusão e Direções Futuras
Neste trabalho, revelamos um novo método para checar se os resumos gerados por computadores são factualmente corretos. Nossa métrica mostra que pode competir com métodos existentes.
No entanto, nossa abordagem enfrenta desafios em aplicações práticas devido aos longos tempos de processamento em textos maiores. Acreditamos que refinar como nosso sistema lida com tuplas pode torná-lo mais eficiente.
Outro desafio é a diferença em como as métricas de factualidade pontuam resumos em comparação com as avaliações humanas, que geralmente enfatizam a correção completa. Suspeitamos que adaptar um método de pontuação mais rigoroso pode alinhar melhor com as visões humanas, embora isso seja difícil, pois requer marcação precisa.
Nosso estudo destaca que, apesar de correlações estáveis com julgamentos humanos, ainda há casos em que nosso método pode fornecer resultados diferentes. Portanto, enquanto nossa ferramenta pode ser útil, ela deve complementar a avaliação humana em vez de substituir exclusivamente.
É importante lembrar que os datasets usados para avaliar julgamentos humanos vêm com suas próprias limitações. No entanto, estamos confiantes de que, à medida que os modelos de rotulagem SRL avançam, nossa abordagem poderia ser aplicada com sucesso a mais idiomas.
Declaração de Ética
Este estudo foca na análise automática da veracidade de textos gerados. Não vemos riscos imediatos no desenvolvimento desse método, mas enfatizamos a importância de reconhecer suas limitações atuais. Confiar apenas em métodos automatizados pode levar a decisões prejudiciais, então recomendamos usá-los em combinação com o julgamento humano.
Título: Evaluating Factual Consistency of Texts with Semantic Role Labeling
Resumo: Automated evaluation of text generation systems has recently seen increasing attention, particularly checking whether generated text stays truthful to input sources. Existing methods frequently rely on an evaluation using task-specific language models, which in turn allows for little interpretability of generated scores. We introduce SRLScore, a reference-free evaluation metric designed with text summarization in mind. Our approach generates fact tuples constructed from Semantic Role Labels, applied to both input and summary texts. A final factuality score is computed by an adjustable scoring mechanism, which allows for easy adaption of the method across domains. Correlation with human judgments on English summarization datasets shows that SRLScore is competitive with state-of-the-art methods and exhibits stable generalization across datasets without requiring further training or hyperparameter tuning. We experiment with an optional co-reference resolution step, but find that the performance boost is mostly outweighed by the additional compute required. Our metric is available online at https://github.com/heyjing/SRLScore.
Autores: Jing Fan, Dennis Aumiller, Michael Gertz
Última atualização: 2023-05-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.13309
Fonte PDF: https://arxiv.org/pdf/2305.13309
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.