Avaliando o Alinhamento Pluralista em Modelos de Linguagem
Um novo método pra avaliar os valores diversos dos usuários em modelos de linguagem.
― 9 min ler
Índice
- O Desafio da Diversidade em Modelos de Linguagem
- A Necessidade de Avaliação
- Criando Personas Sintéticas
- Gerando a Demografia das Personas
- Geração do Conjunto de Dados de Preferências
- Avaliação e Verificação Humana
- Análise Leave-One-Out
- Avaliação Humana
- Os Resultados do Uso de Personas Sintéticas
- Concordância Entre Modelos e Humanos
- Consistência Entre Modelos
- Avaliação com o PERSONA Bench
- Limitações e Trabalhos Futuros
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem (MLs) estão ficando cada vez mais avançados, mas existe uma necessidade crescente de que eles se alinhem com uma variedade de valores dos usuários. Infelizmente, muitos métodos atuais focam demais na opinião da maioria, o que pode deixar de lado as opiniões de grupos minoritários. Isso pode levar a uma falta de equilíbrio na forma como diferentes perspectivas são representadas. Para resolver esse problema, apresentamos o PERSONA, um ambiente de teste que pode avaliar e melhorar o alinhamento pluralista em MLs.
Para criar um conjunto diverso de perfis de usuários, geramos 1.586 personas sintéticas com base em dados do censo dos EUA, garantindo que elas tivessem diferentes características demográficas e características únicas. Depois, montamos um grande conjunto de dados de avaliação contendo 3.868 perguntas e 317.200 pares de feedback derivados dessas personas sintéticas. Isso nos permite avaliar quão bem os modelos de linguagem podem interpretar diferentes usuários e criar um padrão de referência, o PERSONA Bench, para alinhamento pluralista.
O Desafio da Diversidade em Modelos de Linguagem
O aprendizado por reforço com Feedback Humano (RLHF) tem sido crucial na construção de assistentes de modelo de linguagem úteis. No entanto, esses métodos muitas vezes refletem as opiniões de um grupo limitado de provedores de feedback, o que pode levar a vieses nos MLs resultantes. Estudos mostraram que modelos amplamente utilizados não capturam a gama completa de preferências demográficas, especialmente em questões importantes como política.
A forma como os métodos atuais são construídos geralmente assume um usuário "representativo", o que pode reforçar as opiniões da maioria e marginalizar as minorias. Alguns esforços recentes tentaram criar algoritmos que consideram diferentes tipos de valores dos usuários, mas ainda existem desafios para alcançar um verdadeiro alinhamento pluralista. Uma das questões centrais é que nenhum modelo único pode satisfazer todas as preferências dos grupos simultaneamente, o que levanta dúvidas sobre a eficácia do RLHF.
Além disso, os valores individuais dos usuários podem variar bastante, o que significa que alinhar modelos às preferências individuais poderia criar uma experiência mais personalizada. Isso gerou um interesse maior em métodos de alinhamento personalizados, assim como em técnicas de aprendizado ativo para entender melhor as preferências dos usuários por meio da interação.
A Necessidade de Avaliação
Apesar da importância desses desafios, os métodos de avaliação existentes são limitados. Pesquisas anteriores confiaram principalmente em pesquisas de opinião e questionários, que muitas vezes consistem em perguntas de múltipla escolha que não refletem o uso real dos MLs. Como resultado, prever as preferências dos usuários nem sempre se correlaciona com a capacidade do modelo de fornecer respostas satisfatórias.
Um conjunto de dados recente, o PRISM, coletou preferências dos usuários sobre conteúdo gerado por modelos em temas diversos. No entanto, ele ainda coleta dados de respondentes humanos reais, o que limita a escalabilidade na avaliação de algoritmos.
Em resposta, propomos usar personas sintéticas como uma solução para esse desafio de avaliação. Ao modelar personas com perfis de usuários realistas, podemos simular as preferências e interações de vários tipos de usuários sem depender de participantes humanos.
Criando Personas Sintéticas
Gerando a Demografia das Personas
Para criar um conjunto representativo de personas, começamos amostrando dados do censo dos EUA. No entanto, simplesmente usar dados do censo impõe limitações, já que ele fornece informações agregadas, mas carece de características individuais detalhadas. Em vez disso, usamos o American Community Survey (ACS) Public Use Microdata Sample (PUMS), que fornece resultados de pesquisa individuais.
Nossa abordagem envolveu várias etapas:
- Amostragem de Atributos: Amostramos um conjunto de atributos demográficos dos arquivos PUMS, garantindo que fossem autoconfiáveis.
- Enriquecendo Perfis: Enriquecemos cada perfil com dados psicodemográficos adicionais para criar personas mais completas.
- Usando Modelos de Linguagem: Modelos de linguagem foram utilizados para preencher as lacunas restantes nos perfis, garantindo um contexto mais rico.
- Resolvendo Inconsistências: Filtramos personas inconsistentes usando saídas dos modelos.
Esse processo nos permitiu criar uma representação demográfica ampla que espelha os desafios enfrentados no alinhamento pluralista.
Geração do Conjunto de Dados de Preferências
Após estabelecer a demografia das personas, voltamos à criação de um conjunto de dados de preferências abrangente. Conjuntos de dados anteriores careciam de insights específicos de grupos ou indivíduos, dificultando o estudo efetivo do alinhamento pluralista. Para resolver isso, utilizamos prompts do conjunto de dados PRISM, que incluía várias perguntas temáticas.
Nossas etapas para gerar esse conjunto de dados incluíram:
- Curadoria de Prompts: Filtramos os 8.011 prompts originais com base na sua capacidade de elicitar opiniões diversas, resultando em um conjunto final de 3.868 perguntas.
- Coleta de Feedback: Para cada persona, geramos respostas usando o GPT-4 e criamos pares de feedback para refletir preferências.
Por meio desse processo, construímos um conjunto de dados de preferências que permite uma compreensão empírica do alinhamento pluralista e dos interesses dos usuários.
Avaliação e Verificação Humana
Análise Leave-One-Out
Para verificar quais atributos das personas afetam a tomada de decisão, realizamos uma análise leave-one-out. Criamos pares de personas, uma com um atributo removido e outra que o manteve. Avaliadores humanos então avaliaram as diferenças com base em um conjunto de perguntas pré-definidas. Essa análise ajudou a medir o impacto de vários atributos no processo de tomada de decisão, revelando quais características eram mais significativas.
Avaliação Humana
Entender como os humanos expressam preferências também é fundamental para avaliar os MLs. Em nossa avaliação humana, convidamos participantes a interpretar diferentes personas. Cada participante teve a tarefa de responder perguntas com base nos atributos da persona designada.
Essa abordagem nos permitiu avaliar quão bem os modelos de linguagem podiam simular respostas e preferências humanas. Notavelmente, descobrimos que o GPT-4 mostrou um alto nível de concordância com os anotadores humanos, indicando sua capacidade de representar com precisão diferentes personas.
Os Resultados do Uso de Personas Sintéticas
Concordância Entre Modelos e Humanos
Nossa avaliação revelou que diferentes modelos de linguagem podiam emular diversas personas em graus variados. Enquanto o GPT-4 teve um bom desempenho, outros modelos como Llama-3 70b e Mistral Large também mostraram resultados promissores. Importante, esses modelos exibiram um nível razoável de concordância em suas saídas, indicando que nosso método para gerar personas sintéticas é eficaz.
Consistência Entre Modelos
Ao comparar saídas de diferentes modelos, encontramos acordos significativos entre eles, reforçando o potencial das personas sintéticas como meio de avaliar métodos de alinhamento pluralista. O uso dessas personas permite que pesquisadores avaliem quão bem os modelos podem se alinhar a perspectivas variadas sem envolver diretamente participantes humanos.
Avaliação com o PERSONA Bench
Para facilitar novas pesquisas, estabelecemos o PERSONA Bench, um padrão para alinhamento pluralista. Esse processo envolveu avaliar quão bem vários modelos responderam aos mesmos prompts enquanto seus respostas geradas correspondiam aos atributos das personas.
Nossos achados mostram que modelos que receberam as informações da persona tiveram um desempenho melhor do que aqueles que não tinham esse contexto, enfatizando a importância de entender os antecedentes dos usuários em interações personalizadas.
Limitações e Trabalhos Futuros
Embora nossa abordagem ao uso de personas sintéticas seja um passo significativo, várias limitações devem ser reconhecidas:
- Foco Demográfico: Nossas personas são baseadas em dados demográficos dos EUA, que podem não ser representativos de populações globais. Pesquisas futuras devem incorporar personas mais diversas e internacionais.
- Validação de Dados de Feedback: Embora tenhamos validado nossas respostas geradas através de juízes humanos, ainda há alguma incerteza sobre se o feedback realmente reflete as preferências reais dos usuários.
- Limitações do Modelo: Os modelos de linguagem usados para criar e avaliar personas não estão isentos de seus vieses. Como esses modelos foram treinados em vastos conjuntos de dados, suas saídas podem não capturar todas as nuances.
- Métricas de Avaliação: Embora tenhamos utilizado métricas de concordância entre anotadores, estas podem não capturar totalmente os aspectos qualitativos do alinhamento.
- Aplicação no Mundo Real: Nosso ambiente de teste sintético não abrange as complexidades das interações reais dos usuários, necessitando de mais estudos de campo.
Conclusão
O crescimento dos modelos de linguagem destaca os desafios contínuos em garantir que eles se alinhem de forma justa e apropriada com valores diversos dos usuários. Nosso trabalho com o PERSONA visa fornecer uma estrutura robusta para desenvolver e testar o alinhamento pluralista em modelos de linguagem através do uso de personas sintéticas.
Ao criar deliberadamente uma demografia diversificada e gerar um conjunto abrangente de dados de preferências, estabelecemos as bases para futuras pesquisas em modelos de linguagem personalizados. Embora limitações permaneçam, acreditamos que essa abordagem abre novos caminhos para a pesquisa em métodos de alinhamento, garantindo que os modelos possam atender melhor às necessidades de todos os usuários.
Buscamos um desenvolvimento contínuo para refinar nossos métodos e enfrentar os vários desafios mencionados para aumentar a aplicabilidade e a justiça dos modelos de linguagem em contextos diversos.
Título: PERSONA: A Reproducible Testbed for Pluralistic Alignment
Resumo: The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.
Autores: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
Última atualização: 2024-07-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.17387
Fonte PDF: https://arxiv.org/pdf/2407.17387
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.