Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avaliando Traços Psicológicos em Modelos de Linguagem

Esse artigo explora a avaliação psicológica de modelos de linguagem e seu comportamento.

― 10 min ler


Avaliação Psicológica daAvaliação Psicológica daIAmodelos de linguagem.Examinando traços de saúde mental em
Índice

Estudos recentes mostram que modelos de linguagem, que são um tipo de inteligência artificial, podem ter traços parecidos com personalidades humanas. Isso levanta questões sobre se esses modelos têm preconceitos que se alinham com traços psicológicos humanos. Embora modelos conversacionais grandes às vezes sejam enganados para responder a pesquisas sobre saúde mental, avaliar os traços psicológicos de modelos mais simples que foram treinados para diferentes tarefas é difícil por causa da falta de métodos adequados.

Neste artigo, propomos uma maneira de usar questionários psicológicos padrão para avaliar esses modelos. Oferecemos uma biblioteca de código que permite a avaliação psicológica de vários modelos, focando em traços comuns relacionados à saúde mental, como Ansiedade, Depressão e Sentido de Coerência. Nossas descobertas sugerem que muitos modelos de linguagem mostram sinais desses construtos de saúde mental parecidos com os humanos. Ao examinar esses traços, podemos entender melhor como esses modelos se comportam e potencialmente melhorar sua confiabilidade.

O Impacto dos Modelos de Linguagem

Modelos de linguagem estão sendo cada vez mais usados em áreas importantes da vida, incluindo educação, saúde, apoio emocional e recrutamento. No entanto, suas respostas podem, sem querer, causar danos. Por exemplo, um chatbot foi retirado do ar por uma linha de apoio porque deu conselhos prejudiciais. Isso destaca um desafio significativo: entender e corrigir os comportamentos desses modelos.

Os métodos existentes para tornar modelos de aprendizado de máquina compreensíveis muitas vezes lutam com essas questões. Embora alguns modelos avançados possam usar teorias psicológicas para melhores explicações ao responder a questionários psicométricos, muitos modelos mais simples não conseguem. Como esses modelos são amplamente utilizados para várias tarefas em processamento de linguagem natural, precisamos encontrar formas de monitorar e compreender seu comportamento.

Este estudo visa medir traços importantes relacionados à saúde mental em modelos de linguagem adaptando métodos da psicologia humana. A abordagem inclui três partes principais:

  1. Projetar prompts de inferência em linguagem natural (NLI) com base em questionários psicológicos.
  2. Aplicar esses prompts aos modelos através de um novo método de treinamento.
  3. Avaliar os preconceitos nos modelos com base nos resultados de suas respostas.

Focamos em construtos de saúde mental e demonstramos que esses modelos mostram variações em níveis de ansiedade, depressão e Sentido de Coerência, consistentes com teorias padrão da psicologia humana. Usando um processo de validação rigoroso, mostramos que esses traços psicológicos são influenciados pelos dados de treinamento dos modelos e que podemos ajustar suas respostas para realçar ou reduzir traços específicos.

Ferramentas Psicológicas para Modelos de Linguagem

O objetivo da nossa pesquisa é criar métodos para avaliar traços semelhantes à personalidade em modelos de linguagem que podem ser usados tanto com modelos conversacionais quanto não conversacionais. Nós também fornecemos uma biblioteca Python para validar esses traços e criamos metodologias para projetar prompts NLI baseados em questionários estabelecidos.

Além disso, compilamos um conjunto de dados de prompts NLI relacionados à avaliação de saúde mental, incluindo extensos processos de validação para garantir precisão e confiabilidade.

A Necessidade de IA Alinhada com Valores Humanos

À medida que a inteligência artificial se torna mais integrada à sociedade, a necessidade de sistemas que reflitam valores humanos está crescendo. Uma maneira de alcançar isso é integrando princípios da psicologia na IA, o que pode ajudar a esclarecer como os modelos de linguagem tomam decisões. Descobertas recentes mostram que modelos de linguagem podem desenvolver traços de personalidade que se assemelham a características humanas. Essa mistura de linhas entre humanos e máquinas pede uma investigação mais profunda sobre os aspectos psicológicos desses modelos.

Várias ferramentas foram desenvolvidas para analisar traços semelhantes aos humanos em modelos de linguagem. O Big Five Inventory é uma dessas ferramentas usadas para avaliar os principais traços de personalidade. Outros estudos introduziram várias escalas clínicas para avaliar modelos de linguagem, mas aplicar avaliações centradas no humano a modelos de linguagem apresenta desafios devido à sua sensibilidade ao contexto e possíveis preconceitos nos prompts.

Em nosso estudo, focamos em medir traços relacionados à saúde mental quantificando preconceitos nas respostas dos modelos de linguagem através de uma cuidadosa manipulação do contexto. Isso enfatiza a importância de projetar prompts NLI adaptados de questionários psicológicos. Nossas avaliações de validade abrangentes combinam métodos comportamentais e baseados em dados, dando um passo além do trabalho anterior.

Examinando Construtos de Saúde Mental

Exploramos como os modelos de linguagem exibem três construtos importantes relacionados à saúde mental: ansiedade, depressão e Sentido de Coerência. A ansiedade é caracterizada por preocupações persistentes e excessivas, muitas vezes acompanhadas de sintomas físicos e psicológicos. A depressão envolve sentimentos contínuos de tristeza, desesperança e falta de interesse em atividades prazerosas.

Essas condições são comumente avaliadas usando escalas bem estabelecidas. Pesquisas mostram que ansiedade e depressão estão positivamente correlacionadas em humanos, e observamos tendências semelhantes em modelos de linguagem. O Sentido de Coerência é um aspecto essencial do bem-estar, composto por três elementos: compreensibilidade, gerenciabilidade e significado.

Em nossas descobertas, demonstramos que um maior Sentido de Coerência pode ajudar a reduzir sintomas de ansiedade e depressão em modelos de linguagem, refletindo o que é observado em humanos. Nossa abordagem destaca o valor de usar questionários para avaliar esses modelos de forma abrangente.

Usando Inferência em Linguagem Natural (NLI)

As tarefas NLI são ferramentas projetadas para avaliar a compreensão da linguagem de forma neutra. Nessas tarefas, o modelo recebe duas frases - uma premissa e uma hipótese - e determina a relação entre elas, gerando uma distribuição de probabilidade sobre as relações. Nosso artigo se concentra especificamente em examinar as pontuações de implicação resultantes dessas tarefas.

A aplicação de avaliações psicológicas existentes aos modelos de linguagem resulta em um quadro refinado que chamamos de “PALM”. Esse quadro consiste em quatro partes principais:

  1. Design do Prompt: Traduzir questionários de ciências sociais em prompts NLI.
  2. Avaliação: Ajustar classificador NLI com um conjunto de dados relevante e analisar preconceitos com base nas respostas.
  3. Validação: Realizar testes para garantir que as respostas reflitam com precisão os construtos psicológicos pretendidos.
  4. Intervenção: Ajustar o treinamento do modelo com textos relacionados aos construtos psicológicos e reavaliar para observar mudanças.

Por meio desse quadro, mostramos que os modelos de linguagem exibem variações em ansiedade, depressão e Sentido de Coerência, consistentes com teorias psicológicas estabelecidas.

Projetando Prompts NLI

Itens de questionário efetivos são projetados para refletir as diversas respostas da população. Da mesma forma, criamos prompts que permitem que as respostas variem, refletindo preconceitos individuais. Nossa abordagem envolve identificar termos-chave em cada pergunta que indiquem a posição do respondente.

Cada pergunta inclui termos que representam emoções relacionadas ao construto que está sendo medido. Selecionamos cuidadosamente esses termos para garantir que expressem uma posição sobre o assunto da pergunta. Ao empregar várias abordagens, permitimos a validação interna dos prompts e garantimos robustez contra variabilidade linguística.

Escalas de Likert também são usadas para avaliar frequência ou intensidade nas respostas. Nosso design incorpora múltiplas variações linguísticas para cada intensidade, garantindo uma avaliação abrangente enquanto permite que os modelos forneçam respostas variadas.

Os templates usados para os prompts NLI mantêm o contexto das perguntas originais enquanto estruturam as hipóteses para seguir logicamente das premissas. Cada template garante neutralidade, evitando qualquer preconceito que possa influenciar as respostas do modelo.

Ao anexar uma cabeça de classificação NLI a vários modelos, podemos avaliar os construtos de saúde mental de forma abrangente. Exploramos várias técnicas de ajuste fino e apresentamos resultados obtidos de modelos sem congelar pesos, o que permite avaliações mais precisas.

Validando Traços Psicológicos

Realizamos cinco técnicas de validação principais para garantir a precisão de nossas avaliações:

  1. Validade de Conteúdo: Garantir que o design do prompt mantenha a precisão semântica através da validação por especialistas e medidas estatísticas.
  2. Consistência Intra-Pergunta: Medir a correlação entre prompts que avaliam construtos semelhantes e garantir variabilidade entre prompts que mostram diferentes posições.
  3. Consistência Inter-Pergunta: Avaliar a consistência interna de um conjunto de perguntas que medem o mesmo construto.
  4. Validade de Construto: Confirmar que os construtos avaliados estão alinhados com expectativas teóricas com base na psicologia humana estabelecida.
  5. Validade de Critério: Medir como os modelos respondem ao treinamento em texto relacionado a construtos identificados, avaliando quão bem esses modelos se alinham com padrões estabelecidos.

Por meio dessas técnicas, estabelecemos um quadro sólido para entender os traços psicológicos presentes em modelos de linguagem.

O Papel dos Dados e do Treinamento

Nossa população de estudo consistiu de modelos de linguagem diversos que se encaixavam em uma estrutura computacional padrão. Selecionamos modelos que haviam sido ajustados para precisão na compreensão da linguagem. Os dados que coletamos englobaram uma variedade de modelos, permitindo-nos analisar e comparar diferentes traços de forma eficaz.

Depois de traduzir questionários em prompts NLI, validamos a precisão desses prompts através de testes rigorosos e revisão de especialistas. Todos os questionários exibiram níveis satisfatórios de validade, indicando que mediam com confiança os construtos psicológicos pretendidos.

Ao explorar a relação entre ansiedade e depressão em nossos modelos, identificamos uma forte correlação positiva. Essa correlação espelha o que observamos na psicologia humana, indicando que nossos modelos capturam eficazmente construtos importantes de saúde mental.

Intervenções e Ajustes

Para aprofundar nosso entendimento, implementamos adaptação de domínio, onde modelos foram treinados em textos relacionados a construtos psicológicos específicos. Esse processo nos permitiu observar mudanças nas pontuações de avaliação dos modelos ao longo do tempo.

Descobrimos que modelos treinados em textos depressivos mostraram pontuações elevadas de ansiedade e depressão, revelando pontuações mais baixas de Sentido de Coerência. Por outro lado, quando treinados em textos positivos, observamos diminuições nos níveis de ansiedade e depressão, reforçando o impacto do contexto de treinamento no comportamento do modelo.

Os resultados de nossas avaliações qualitativas destacaram mudanças significativas em como os modelos responderam a prompts relacionados à saúde mental, indicando que ajustes no treinamento podem ter um efeito notável na sua saída.

Conclusão

Por meio de nosso extenso trabalho examinando os traços psicológicos latentes dos modelos de linguagem, estabelecemos um quadro para avaliação. Este quadro enfatiza a importância de entender e interpretar os comportamentos desses modelos dentro de um contexto psicológico.

Ao traçar paralelos entre a psicologia humana e as respostas dos modelos de linguagem, podemos melhorar as interações e a confiabilidade dos sistemas de IA. Além disso, nossas descobertas sublinham o potencial para intervenções corretivas que podem aumentar a confiabilidade dos modelos de linguagem em áreas sensíveis e impactantes da vida.

Nossa pesquisa estabelece as bases para trabalhos futuros no campo da inteligência artificial e psicologia, com a esperança de criar sistemas que reflitam melhor os valores e entendimentos humanos. Por meio de avaliações e desenvolvimentos contínuos, buscamos construir modelos de linguagem que não apenas desempenhem eficazmente, mas também se alinhem de perto com os construtos psicológicos que governam o comportamento humano.

Fonte original

Título: Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales

Resumo: Human-like personality traits have recently been discovered in large language models, raising the hypothesis that their (known and as yet undiscovered) biases conform with human latent psychological constructs. While large conversational models may be tricked into answering psychometric questionnaires, the latent psychological constructs of thousands of simpler transformers, trained for other tasks, cannot be assessed because appropriate psychometric methods are currently lacking. Here, we show how standard psychological questionnaires can be reformulated into natural language inference prompts, and we provide a code library to support the psychometric assessment of arbitrary models. We demonstrate, using a sample of 88 publicly available models, the existence of human-like mental health-related constructs (including anxiety, depression, and Sense of Coherence) which conform with standard theories in human psychology and show similar correlations and mitigation strategies. The ability to interpret and rectify the performance of language models by using psychological tools can boost the development of more explainable, controllable, and trustworthy models.

Autores: Maor Reuben, Ortal Slobodin, Aviad Elyshar, Idan-Chaim Cohen, Orna Braun-Lewensohn, Odeya Cohen, Rami Puzis

Última atualização: Sep 29, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.19655

Fonte PDF: https://arxiv.org/pdf/2409.19655

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes