Avaliando a Qualidade em Discussões Políticas Online
AQuA mede a qualidade dos comentários usando insights de especialistas e usuários.
― 6 min ler
Índice
Medir a qualidade das discussões online, especialmente em contextos políticos, é importante pra entender como as pessoas se comunicam e debatem sobre os assuntos. Tradicionalmente, isso era feito por especialistas treinados que liam e avaliavam os comentários, mas com o avanço da tecnologia, tá crescendo a necessidade de formas automatizadas de avaliar essas discussões.
Esse artigo apresenta um método chamado AQuA. Esse método combina insights de especialistas e usuários comuns pra criar uma pontuação única que reflete a qualidade dos comentários online. Ao olhar pra vários aspectos do que faz uma discussão ser boa, AQuA oferece uma visão mais completa do que os métodos tradicionais.
Deliberação
A Importância daNo coração das discussões democráticas eficazes tá a deliberação. Isso envolve compartilhar ideias, engajar em conversas críticas e trabalhar pra chegar a um consenso. A qualidade dessas discussões é multifacetada. Aspectos importantes incluem racionalidade, civilidade, reciprocidade e construtividade.
Conforme mais conversas públicas vão pra internet, a necessidade de formas eficazes de avaliar a qualidade dessas discussões aumenta. Enquanto pesquisas anteriores focaram em avaliações manuais, a tendência atual é automatizar esse processo usando processamento de linguagem natural e aprendizado de máquina.
Entendendo o AQuA
AQuA significa Additive Quality Score with Adapters. Ele foi criado pra medir a qualidade dos comentários individuais nas discussões online. Esse método leva em conta previsões baseadas em vários aspectos da deliberação e combina esses insights de especialistas e não-especialistas.
O objetivo é criar uma pontuação única que capture várias dimensões da deliberação. Em vez de depender de uma única medida, AQuA reconhece que alguns aspectos podem ser mais significativos que outros na hora de determinar a qualidade geral de um comentário.
Componentes Chave do AQuA
Modelos de Adaptadores
Pra desenvolver o AQuA, a gente treinou 20 modelos de adaptadores. Esses modelos focam em diferentes aspectos da deliberação. Adaptadores são camadas adicionadas a modelos de linguagem existentes pra ajudar eles a realizar tarefas específicas sem mudar o modelo original.
Usando esses modelos de adaptadores, a gente pode prever como um comentário se sai em vários aspectos deliberativos, como quão bem ele justifica seus pontos ou quão respeitoso ele é com outros participantes.
Correlação Entre Avaliações
Uma parte crítica do AQuA envolve correlacionar as avaliações de especialistas e não-especialistas. Ao olhar como os especialistas pontuam comentários em comparação a como usuários comuns os veem, a gente pode pesar a importância de cada aspecto deliberativo. Isso significa que a gente leva em conta quais qualidades são mais valorizadas pelos usuários, permitindo dar mais peso na pontuação final.
Conjuntos de dados
Trabalhando comPra treinar e avaliar o AQuA, a gente usou três conjuntos de dados:
Conjunto de Dados KODIE: Esse conjunto contém milhares de comentários de discussões online sobre tópicos políticos. Cada comentário foi avaliado em vários aspectos deliberativos por especialistas treinados.
Conjunto de Dados meinfernsehen: Esse conjunto consiste em comentários de um projeto de participação cidadã sobre televisão pública na Alemanha. Ele também inclui anotações de especialistas.
Projeto CrowdAnno: Nesse projeto, usuários comuns anotaram comentários pra indicar sua percepção da qualidade deliberativa. Esse conjunto de dados ajudou a gente a entender como não-especialistas veem a qualidade dos comentários.
Usando esses conjuntos de dados, a gente treinou nossos modelos de adaptadores e calculou coeficientes de correlação pra entender a relação entre as pontuações de especialistas e as opiniões de não-especialistas.
Como o AQuA Funciona
Calculando a Pontuação AQuA
A pontuação AQuA é calculada pegando a soma ponderada das previsões dos modelos de adaptadores. Cada aspecto da deliberação contribui de forma diferente pra pontuação geral, com base na Análise de Correlação que fizemos.
Entrada: Quando um comentário é inserido no sistema, os modelos de adaptadores prevêem pontuações pra vários critérios deliberativos.
Ponderação: As contribuições de cada aspecto deliberativo são então ponderadas com base em quão bem elas se alinham com as avaliações dos especialistas e as percepções dos usuários.
Pontuação Final: Os resultados são somados pra gerar uma pontuação final que reflete a qualidade deliberativa geral do comentário.
Analisando os Resultados
Depois de desenvolver o AQuA, a gente fez vários experimentos pra avaliar sua eficácia. Testamos o sistema em vários conjuntos de dados pra ver quão bem ele prevê a qualidade de comentários que não tinham sido vistos antes.
Desempenho em Diferentes Conjuntos de Dados
Descobrimos que o AQuA se sai bem em diferentes conjuntos de dados. Em particular, ele conseguiu identificar comentários construtivos e aqueles que são tóxicos. Isso demonstra que o modelo pode generalizar suas previsões, o que é uma característica crucial pra qualquer ferramenta de avaliação automatizada.
Análise Qualitativa
Uma análise qualitativa dos comentários mais bem e menos avaliados mostra que os que receberam pontuações altas costumam exibir argumentos bem fundamentados e engajamento respeitoso com os outros. Em contraste, comentários com pontuações mais baixas geralmente careciam de substância ou eram excessivamente sarcásticos e desdenhosos.
Descobertas da Análise de Correlação
Os coeficientes de correlação, que representam a relação entre diferentes aspectos deliberativos e a qualidade percebida dos comentários, fornecem insights valiosos. Por exemplo, argumentos fortes e pontos relevantes estavam consistentemente ligados a uma qualidade percebida mais alta, enquanto comentários sem justificativa eram vistos negativamente.
Além disso, a análise confirmou algumas descobertas teóricas da literatura sobre deliberação. Por exemplo, interações respeitosas e críticas construtivas foram consideradas como fatores que melhoram a qualidade das discussões.
Além do Comprimento do Comentário
Um aspecto interessante que descobrimos durante nossa análise foi que o comprimento dos comentários não determinava exclusivamente sua qualidade. Embora comentários mais curtos tendessem a ter pontuações mais baixas, muitos comentários de comprimento médio também se saíam bem. Portanto, o conteúdo real e a qualidade da discussão em si são muito mais críticos do que o número de palavras usadas.
Conclusão
Em conclusão, o AQuA representa um avanço significativo na avaliação da qualidade deliberativa em discussões online. Ao integrar as avaliações de especialistas com as percepções de usuários comuns, o AQuA fornece uma medida sutil e abrangente da qualidade dos comentários.
Sua capacidade de fornecer pontuações significativas com base em vários aspectos deliberativos demonstra sua relevância pra acadêmicos, formuladores de políticas e qualquer um que se interesse em analisar diálogos públicos. À medida que o cenário de discurso online continua a evoluir, ferramentas como o AQuA vão se tornar essenciais pra manter a qualidade das discussões.
Título: AQuA -- Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs
Resumo: Measuring the quality of contributions in political online discussions is crucial in deliberation research and computer science. Research has identified various indicators to assess online discussion quality, and with deep learning advancements, automating these measures has become feasible. While some studies focus on analyzing specific quality indicators, a comprehensive quality score incorporating various deliberative aspects is often preferred. In this work, we introduce AQuA, an additive score that calculates a unified deliberative quality score from multiple indices for each discussion post. Unlike other singular scores, AQuA preserves information on the deliberative aspects present in comments, enhancing model transparency. We develop adapter models for 20 deliberative indices, and calculate correlation coefficients between experts' annotations and the perceived deliberativeness by non-experts to weigh the individual indices into a single deliberative score. We demonstrate that the AQuA score can be computed easily from pre-trained adapters and aligns well with annotations on other datasets that have not be seen during training. The analysis of experts' vs. non-experts' annotations confirms theoretical findings in the social science literature.
Autores: Maike Behrendt, Stefan Sylvius Wagner, Marc Ziegele, Lena Wilms, Anke Stoll, Dominique Heinbach, Stefan Harmeling
Última atualização: 2024-04-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.02761
Fonte PDF: https://arxiv.org/pdf/2404.02761
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://doi.org/10.1002/eng2.12189,su13031187
- https://github.com/mabehrendt/AQuA
- https://huggingface.co/facebook/wmt19-en-de
- https://huggingface.co/bert-base-multilingual-cased
- https://huggingface.co/bert-base-german-cased
- https://huggingface.co/bert-base-multilingual-uncased
- https://www.kaggle.com/datasets/aashita/nyt-comments