Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Sistemas Multiagentes

Nova Técnica para Encontrar Acordo em Opiniões Diversas

Uma nova maneira de ajudar modelos de linguagem a encontrar um ponto em comum entre opiniões diferentes.

― 5 min ler


Encontrando um TerrenoEncontrando um TerrenoComum com a IAentre opiniões diferentes usando IA.Uma estrutura pra conseguir consenso
Índice

Encontrar um meio-termo quando as pessoas têm Opiniões diferentes pode ser difícil. Isso é ainda mais verdade em situações onde muitas pessoas compartilham suas visões. Recentemente, uma nova tecnologia chamada modelos de linguagem grandes (LLMs) tem mostrado potencial pra ajudar com esse problema. Esses modelos conseguem ler e entender várias opiniões e escrever textos que parecem ter sido escritos por humanos.

Mas, pra funcionar bem, esses modelos geralmente precisam de muitos dados que as pessoas já rotularam ou anotaram. Isso pode ser um problema porque conseguir dados de alta qualidade, anotados por humanos, pode ser demorado e caro.

Apresentando o Auto-Acordo

Pra resolver esse problema, propomos uma nova forma de ajudar os LLMs a encontrar concordância entre opiniões diferentes usando um processo chamado Auto-Acordo. Esse método permite que o modelo crie seus próprios dados em vez de depender da entrada humana. A abordagem funciona assim:

  1. Usamos um Modelo de Linguagem poderoso chamado GPT-3 pra gerar várias opiniões pra cada pergunta no nosso conjunto de dados.
  2. O GPT-3 também cria possíveis Acordos baseados nessas opiniões.
  3. Depois, avaliamos qual desses acordos melhor representa as opiniões dadas.
  4. Finalmente, ajustamos outro modelo de linguagem usando os acordos que encontramos.

Esse método resulta em um conjunto de dados que inclui perguntas, opiniões e acordos, que usamos pra treinar um modelo de linguagem pra encontrar um meio-termo entre opiniões diferentes.

Passos Chave do Processo

O primeiro passo é gerar opiniões pra cada pergunta no nosso conjunto de dados. Pedimos ao GPT-3 pra criar múltiplas perspectivas sobre cada pergunta. Isso é feito sem precisar de opiniões escritas por humanos antes, tornando o processo mais rápido e barato.

No próximo passo, pedimos ao GPT-3 pra criar candidatos a acordos com base nas opiniões que ele gerou. Isso ajuda a identificar como diferentes opiniões podem se unir.

Depois de gerar os acordos, precisamos avaliá-los. Pra isso, usamos um modelo que mede o quão bem um acordo se alinha com as opiniões. Definimos uma pontuação que mostra quão próximo um acordo está das opiniões. Uma pontuação de 0 significa que o acordo não corresponde às opiniões, enquanto uma pontuação de 1 significa que corresponde perfeitamente.

Em seguida, pontuamos cada candidato a acordo. O acordo com a maior pontuação é selecionado como a melhor representação das opiniões.

Depois que temos nosso conjunto de dados que inclui perguntas, opiniões e acordos, ajustamos um modelo de linguagem pra que ele possa encontrar eficientemente um meio-termo entre várias opiniões.

Ajustando o Modelo de Linguagem

Pra ajustar o modelo de linguagem, usamos uma versão de um modelo chamado LLaMA que tem 7 bilhões de parâmetros. Focamos na tarefa de encontrar acordos com base no conjunto de dados estruturado que criamos.

Cada dado no nosso conjunto de treinamento inclui instruções, entrada e saída esperada. A instrução indica que o modelo deve encontrar um acordo entre as opiniões dadas, o que ajuda a guiar seu treinamento.

Avaliando Nossa Abordagem

Pra testar como nosso método funciona, usamos o conjunto de dados do Yahoo! Respostas, que contém um grande número de perguntas e respostas. Selecionamos um subconjunto de perguntas pra gerar opiniões e acordos. Criamos tanto opiniões conflitantes quanto não conflitantes pra ver como nosso modelo consegue encontrar acordos em diferentes situações.

Comparamos nosso modelo ajustado com o GPT-3, que é significativamente maior em tamanho, mas serve como um parâmetro de avaliação. Ao selecionar aleatoriamente candidatos a acordos e usar a abordagem do candidato ideal, também testamos diferentes maneiras de encontrar acordos.

Através desses testes, nosso modelo ajustado mostrou resultados promissores. Nos casos em que selecionamos um acordo aleatoriamente, nosso modelo teve um desempenho comparável ao do GPT-3, tanto em situações conflitantes quanto não conflitantes. Quando escolhemos o melhor acordo, as pontuações melhoraram, mostrando a vantagem de selecionar a resposta mais relevante.

Resultados e Descobertas

Os resultados indicam que nossa abordagem pode resumir opiniões e encontrar acordos efetivamente, mesmo quando as opiniões são conflitantes. Em um exemplo relacionado a qual país tem os melhores indicadores de desenvolvimento, as respostas de ambos os modelos mostraram sua capacidade de criar declarações de acordo. No entanto, nosso modelo demonstrou uma visão mais equilibrada, reconhecendo diferentes perspectivas sem forçar uma única conclusão.

Além disso, examinamos um problema comum conhecido como esquecimento catastrófico. Isso acontece quando um modelo esquece como realizar tarefas anteriores depois de ser treinado em novas. Testamos nosso modelo e descobrimos que ele ainda se saiu bem em tarefas gerais mesmo após o ajuste, o que sugere que o modelo retém seu conhecimento anterior.

Conclusão

Resumindo, apresentamos o framework de Auto-Acordo como uma forma de ajustar modelos de linguagem pra encontrar acordos entre opiniões diferentes de forma autônoma. Esse método reduz a dependência de dados caros anotados por humanos, tornando-o acessível pra um público mais amplo.

Fornecemos um grande conjunto de dados contendo perguntas, opiniões e candidatos a acordos, que serve como um recurso valioso pra aplicações futuras em busca de consenso entre visões variadas. Nossos experimentos confirmaram a eficácia do nosso framework de Auto-Acordo, e mostramos que um modelo menor pode igualar o desempenho de um maior com menos recursos. Isso destaca seu potencial em lidar com opiniões diversas e encontrar um meio-termo nas discussões.

Fonte original

Título: Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions

Resumo: Finding an agreement among diverse opinions is a challenging topic in multiagent systems. Recently, large language models (LLMs) have shown great potential in addressing this challenge due to their remarkable capabilities in comprehending human opinions and generating human-like text. However, they typically rely on extensive human-annotated data. In this paper, we propose Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find agreement using data generated by LLM itself. Specifically, our approach employs the generative pre-trained transformer-3 (GPT-3) to generate multiple opinions for each question in a question dataset and create several agreement candidates among these opinions. Then, a bidirectional encoder representations from transformers (BERT)-based model evaluates the agreement score of each agreement candidate and selects the one with the highest agreement score. This process yields a dataset of question-opinion-agreements, which we use to fine-tune a pre-trained LLM for discovering agreements among diverse opinions. Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework achieves comparable performance to GPT-3 with only 1/25 of its parameters, showcasing its ability to identify agreement among various opinions without the need for human-annotated data.

Autores: Shiyao Ding, Takayuki Ito

Última atualização: 2023-05-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.11460

Fonte PDF: https://arxiv.org/pdf/2305.11460

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes