Repensando a Similaridade na Análise Textual
Um novo conjunto de dados aborda a variabilidade do julgamento humano na similaridade textual semântica.
― 9 min ler
A Similaridade Textual Semântica (STS) envolve descobrir quão parecidos dois textos são em significado. Esse assunto é importante na compreensão de linguagem natural (NLU), onde as máquinas precisam interpretar a linguagem humana.
O Desafio da Subjetividade
Um grande desafio nessa área é que pessoas diferentes podem ter opiniões variadas sobre quão similares duas frases são. Os métodos existentes para medir essa similaridade se baseiam em fazer uma média das avaliações de várias pessoas. No entanto, a média pode esconder as visões diversas dos indivíduos, especialmente quando as opiniões variam bastante. Isso limita a capacidade dos modelos de reconhecer a incerteza e a complexidade envolvidas no julgamento humano.
Apresentando um Novo Conjunto de Dados
Para enfrentar esse problema, criamos um novo conjunto de dados que é sensível a essa incerteza. Ele consiste em 15.000 pares de frases em chinês, totalizando 150.000 rótulos. Nosso objetivo é estudar como diferentes pessoas avaliam a similaridade e capturar esse leque de opiniões de forma eficaz.
Opiniões Humanas
AnalisandoNossas pesquisas mostram que nem um único número (escalar) nem um método estatístico simples se encaixam bem em todos os julgamentos coletados. Descobrimos que os modelos STS existentes muitas vezes não consideram a variabilidade nas opiniões humanas. Em vez disso, eles tendem a se concentrar em prever uma única pontuação média.
A Natureza das Tarefas de STS
A tarefa de STS envolve avaliar quão semelhantes dois textos são. Isso foi abordado de várias maneiras, desde métodos mais antigos, que se apoiavam em comparações básicas ou contagens de palavras, até métodos modernos que usam redes neurais avançadas. O objetivo continua o mesmo: treinar modelos que avaliem a similaridade de maneira semelhante a como os humanos fazem.
Normalmente, as avaliações humanas são coletadas fazendo com que vários avaliadores avaliem um par de frases e, em seguida, a média de suas pontuações é calculada. No entanto, isso assume que há uma pontuação de similaridade definitiva, que pode ser aproximada através da média. Essa suposição funciona bem para avaliações claras, mas se torna problemática em áreas mais subjetivas onde as opiniões diferem.
Anotação
Desacordos naPesquisas mostraram que inconsistências podem surgir, especialmente em áreas complexas onde até especialistas não concordam sobre qual deveria ser o rótulo de similaridade. Ignorar ou remover os rótulos considerados "ruidosos" pode reduzir erros, mas também ignora a variabilidade inerente às avaliações humanas.
Em nosso trabalho, sugerimos reavaliar se devemos tratar os desacordos entre avaliadores apenas como ruído que precisa ser filtrado. Acreditamos que essas diferenças podem, na verdade, refletir as qualidades inerentes aos rótulos STS.
Principais Contribuições do Nosso Estudo
- Criação de Novo Conjunto de Dados: Desenvolvemos um conjunto de dados que incorpora desacordos humanos e visa fornecer uma visão mais nuanceada das avaliações de similaridade.
- Limitações dos Modelos: Descobrimos que os modelos STS atuais, quando treinados em uma única avaliação média, falham em capturar a variabilidade nos julgamentos humanos. Defendemos uma mudança em direção a modelos que prevejam distribuições de opiniões, especialmente em casos com desacordos significativos.
- Considerações Multilíngues: Também discutimos desafios ao transferir rótulos entre diferentes idiomas, indicando que esse processo talvez não funcione sempre como esperado.
Coleta de Dados
Criar um conjunto de dados STS adequado requer selecionar pares de frases que exibam uma gama de similaridades semânticas. Essa é uma tarefa difícil porque pares de frases aleatórias muitas vezes não estão relacionados, fazendo com que apenas uma fração minúscula tenha probabilidade de ser similar.
Para coletar os dados, usamos várias fontes de frases existentes, incluindo discursos públicos e textos de tarefas relacionadas. Para textos gerais como notícias, métodos de crowdsourcing foram empregados, enquanto para domínios especializados como saúde, frequentemente são utilizados anotadores especialistas.
Processo de Anotação
Para avaliar a similaridade, os anotadores avaliam pares de frases em uma escala contínua. Após várias avaliações, uma pontuação média é computada para servir como padrão "ouro". No entanto, esse processo depende da crença de que a variação entre as avaliações independentes é aleatória, em vez de resultar de diferenças de interpretação.
Avaliando o Impacto da Média
Historicamente, fazer média foi a maneira padrão de criar rótulos ouro. No entanto, esse método assume uma compreensão clara da similaridade. Altos níveis de desacordo entre os anotadores na prática indicam que essa abordagem muitas vezes falha em refletir a distribuição precisa de opiniões.
Em nosso trabalho, destacamos exemplos que demonstram que a média pode obscurecer disparidades substanciais nas pontuações das anotações. Por exemplo, se dois grupos de avaliadores veem uma pontuação de similaridade de maneira diferente, uma média simples não consegue capturar esses desacordos subjacentes.
Reconhecendo o Viés nas Avaliações
Examinamos as questões de viés nas avaliações dos avaliadores e buscamos analisar o desacordo como uma característica, em vez de um defeito. Pesquisas sobre inferência de linguagem natural (NLI) mostraram que desacordos em tarefas similares são frequentemente significativos, sugerindo que fazem parte do processo de avaliação e não são meras imprecisões.
Construindo um Corpus STS Chinês
Muito do foco dentro do STS tem sido no inglês, devido à disponibilidade de recursos. No entanto, buscamos criar um conjunto de dados STS em grande escala especificamente em chinês. O corpus consiste em pares feitos de várias fontes, garantindo uma ampla gama de similaridades semânticas.
Técnicas de Coleta de Dados
Coletamos frases usando várias abordagens, incluindo a recuperação de frases similares com base em seus significados. Essa estratégia ajuda a evitar problemas de amostragem aleatória que poderiam resultar em pares não relacionados.
De palestras TED, extraímos frases que são naturalmente mais casuais e menos estruturadas, o que aumenta o potencial de ambiguidade na compreensão. Também aproveitamos Conjuntos de dados existentes de NLI e paráfrases para aprimorar nossa coleta.
Diretrizes de Anotação e Controle de Qualidade
Adotamos diretrizes rigorosas para garantir que nossos anotadores mantivessem altos padrões de qualidade durante o processo de rotulagem. Anotadores profissionais internos foram treinados para avaliar pares de frases com base em uma escala indicando similaridade. Eles passaram por várias rodadas de treinamento para garantir confiabilidade e alta concordância entre anotadores.
Analisando Anotações
Analisamos a primeira rodada de anotações para determinar quão bem diferentes anotadores concordaram. Descobrimos que havia uma variabilidade significativa nas opiniões, apoiando ainda mais a ideia de que a média nem sempre é um método adequado para criar rótulos ouro.
Distinguindo Alta e Baixa Concordância
Nossa análise revelou que exemplos com menor concordância (maior variância) exigiam uma abordagem mais nuançada do que aqueles onde os avaliadores estavam amplamente alinhados. Essa percepção nos levou a categorizar exemplos em grupos de alta e baixa concordância para melhor lidar com as avaliações.
Previsões dos Modelos e Julgamentos Humanos
Examinamos de perto vários modelos que preveem pontuações de similaridade. Muitos modelos geram pontuações únicas de similaridade, que não consideram a diversidade das anotações humanas. Verificamos se essas previsões poderiam se alinhar com os julgamentos humanos e descobrimos que muitos modelos costumam simplesmente dar pontuações altas, distorcendo a verdadeira distribuição de opiniões.
Avançando para Melhores Modelos
Ao analisar as lacunas entre as previsões dos modelos e as avaliações humanas, descobrimos que a maioria dos modelos tem dificuldade em refletir a incerteza presente nos julgamentos humanos. É essencial incentivar os modelos a prever distribuições em vez de pontuações únicas, especialmente em situações onde há um desacordo notável entre os avaliadores.
Considerações Multilíngues
À medida que começamos a expandir nosso trabalho além do STS em chinês, questionamos se as avaliações de um idioma poderiam ser traduzidas e aplicadas de maneira precisa a outro. Estudamos como a linguagem impacta as avaliações que as pessoas fazem e se tradutores profissionais produzem avaliações semelhantes às de falantes nativos.
Em nossas descobertas, notamos diferenças no julgamento com base na proficiência dos anotadores em diferentes idiomas. Por exemplo, enquanto tradutores profissionais tendiam a tomar decisões semelhantes às de falantes nativos do inglês, usuários gerais frequentemente mostraram variação em suas avaliações.
Resumo das Descobertas
Em resumo, nosso trabalho destaca aspectos essenciais para capturar as opiniões humanas em tarefas de STS e enfatiza a importância de representar corretamente essas opiniões, particularmente em casos de alta controvérsia. Oferecemos um novo conjunto de dados que visa ilustrar e quantificar a incerteza nos julgamentos humanos, ao mesmo tempo que encorajamos pesquisas futuras em abordagens de modelagem mais eficazes.
Direções Futuras
Avançando, buscamos aprimorar nossa compreensão de como agregar melhor os julgamentos humanos em representações significativas. Há potencial em explorar estimativas diretas de avaliações individuais, em vez de depender apenas de pontuações agregadas. Isso poderia levar a modelos mais precisos que refletem as complexidades humanas de forma mais genuína.
Além disso, examinaremos como fatores linguísticos e culturais influenciam as diferenças nas avaliações, o que poderia informar melhores metodologias para tarefas STS multilíngues. Acreditamos que envolver-se diretamente com as fontes de variabilidade humana poderia fornecer insights revolucionários e melhorar significativamente o campo.
Título: Collective Human Opinions in Semantic Textual Similarity
Resumo: Despite the subjective nature of semantic textual similarity (STS) and pervasive disagreements in STS annotation, existing benchmarks have used averaged human ratings as the gold standard. Averaging masks the true distribution of human opinions on examples of low agreement, and prevents models from capturing the semantic vagueness that the individual ratings represent. In this work, we introduce USTS, the first Uncertainty-aware STS dataset with ~15,000 Chinese sentence pairs and 150,000 labels, to study collective human opinions in STS. Analysis reveals that neither a scalar nor a single Gaussian fits a set of observed judgements adequately. We further show that current STS models cannot capture the variance caused by human disagreement on individual instances, but rather reflect the predictive confidence over the aggregate dataset.
Autores: Yuxia Wang, Shimin Tao, Ning Xie, Hao Yang, Timothy Baldwin, Karin Verspoor
Última atualização: 2023-08-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.04114
Fonte PDF: https://arxiv.org/pdf/2308.04114
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.