Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Usando Modelos de Linguagem Grandes para Normas de Recursos Semânticos

Pesquisas mostram como modelos de linguagem podem ajudar a entender conceitos por meio de características.

― 6 min ler


Os LLMs Ajudam na AnáliseOs LLMs Ajudam na Análisede Recursos Semânticosconceitos.na compreensão das propriedades dosA pesquisa avalia modelos de linguagem
Índice

Na psicologia e ciência cognitiva, os pesquisadores costumam querer entender como os humanos pensam sobre diferentes Conceitos. Uma maneira de fazer isso é usando algo chamado normas de características semânticas. Isso significa que pedem para as pessoas anotarem tudo que elas acham que é verdade sobre uma certa palavra ou conceito. Por exemplo, se perguntarem sobre um tigre, alguém pode escrever que é um gato grande, que tem listras e que vive na selva. Coletando essas respostas de várias pessoas para muitas palavras, os pesquisadores conseguem descobrir quão relacionados diferentes conceitos são com base nas características mencionadas.

Mas a galera muitas vezes esquece de incluir informações importantes. Por exemplo, enquanto alguém pode escrever que tigres são gatos grandes, pode esquecer que tigres têm DNA ou podem respirar. Esses detalhes que faltam podem mostrar conexões entre diferentes conceitos, como os tigres se relacionam com outros animais e plantas. Para contornar isso, alguns estudos pediram para as pessoas responderem sim ou não sobre se certas propriedades se aplicam a diferentes conceitos. No entanto, verificar todas as propriedades possíveis para muitos conceitos pode levar muito tempo e esforço, já que o número de perguntas aumenta rapidamente com mais conceitos.

Nos últimos anos, os pesquisadores têm explorado o uso de grandes modelos de linguagem (LLMs) para ajudar nesse processo. Esses são programas de computador que conseguem entender e gerar texto parecido com o humano. O objetivo é ver se esses modelos podem determinar de forma confiável se uma certa propriedade se aplica a um conceito, tornando mais fácil e rápido criar normas de características semânticas.

Método

Para esse estudo, os pesquisadores analisaram nomes de animais e artefatos de um conjunto de dados previamente criado. Originalmente, um grande grupo de participantes foi convidado a listar características para várias palavras. Essas características foram então combinadas para criar um grande conjunto de características para cada conceito. Depois, um grupo de avaliadores verificou se cada propriedade se aplicava a cada conceito com base nas respostas originais.

Para tornar esse processo mais rápido e fácil, os pesquisadores recorreram a um LLM open-source chamado FLAN-T5 XXL. Eles pediram para o modelo responder perguntas de sim ou não sobre as características associadas a cada conceito. O modelo respondeu a milhares de perguntas, resultando em uma matriz binária onde cada característica foi marcada como presente ou não para cada conceito.

O foco foi duplo: ver quão precisamente o LLM refletia as Respostas Humanas e determinar se as características verificadas pelo modelo capturavam os julgamentos humanos sobre como os conceitos se relacionam.

Resultados

A partir das normas geradas por humanos, cada célula na matriz onde tanto humanos quanto o modelo concordaram foi marcada como acerto, enquanto discrepâncias foram categorizadas como erros ou alarmes falsos. Comparando os resultados da matriz humana com a gerada pela máquina, os pesquisadores calcularam certas taxas que indicavam quão bem os dois concordavam.

Para toda a matriz, o modelo mostrou um nível moderado de concordância com as respostas humanas. No entanto, frequentemente faltou informações importantes que os avaliadores humanos confirmaram. Por exemplo, o modelo afirmou incorretamente que um cavalo não tem olhos, o que é uma falha clara. Ao mesmo tempo, ele afirmou algumas propriedades que não estavam incluídas nos dados humanos, sugerindo que o modelo poderia estar identificando características válidas mesmo que não reconhecidas por humanos.

Para entender quão bem o modelo se saiu em comparação com as respostas humanas, os pesquisadores analisaram quão próximas estavam as diferentes significações com base nas matrizes de características. Eles montaram uma tarefa onde os participantes tinham que decidir qual de duas palavras era mais parecida em significado com uma terceira palavra. Os resultados mostraram que o espaço verificado por humanos teve um desempenho melhor quando as opções eram próximas em significado, enquanto as previsões do modelo foram mais precisas quando as opções estavam mais distantes. Combinar ambos os conjuntos de dados produziu as estimativas mais precisas de como os conceitos estão relacionados.

Conclusão

Embora grandes LLMs como FLAN-T5 XXL não possam substituir totalmente o esforço humano na verificação de características semânticas, eles trazem insights adicionais que vão além das normas geradas por humanos. Ao combinar as informações de humanos e máquinas, os pesquisadores conseguem uma compreensão mais clara de como os conceitos são representados nas mentes humanas. Esse trabalho é crucial para avançar nossa reflexão sobre inteligência humana e artificial.

Análise de Sensibilidade

Os pesquisadores também examinaram como diferentes níveis de concordância entre os avaliadores humanos afetaram os resultados. Eles descobriram que, à medida que o limite para o que contava como concordância aumentava, a precisão das previsões da máquina também aumentava. Por exemplo, se apenas um avaliador concordasse com uma característica, isso poderia ser suficiente para marcá-la como válida em algumas análises. Mas exigir que todos os avaliadores concordassem proporcionava dados mais confiáveis, ajudando a ajustar como as características de humanos e máquinas poderiam ser avaliadas.

Diferenças na Verificação

O estudo identificou características específicas onde os dados humanos e os dados do modelo divergiam significativamente. Os pesquisadores buscaram as principais características em animais e artefatos onde os dois discordaram mais. Essa análise ajudou a esclarecer as áreas onde o modelo poderia estar perdendo informações ou afirmando propriedades de forma incorreta.

Tarefa de Julgamento de Trincas

Em outra parte do estudo, os participantes participaram de uma tarefa de julgamento de trincas. Eles receberam uma palavra de referência e duas outras palavras e foram perguntados qual delas era mais similar em significado. Essa tarefa ajudou os pesquisadores a avaliar ainda mais quão bem os modelos e os dados humanos se alinhavam quando se tratava de similaridades semânticas.

Através desses vários métodos e análises, a pesquisa iluminou tanto as forças quanto as limitações do uso de LLMs para verificação de características semânticas. As descobertas destacam o potencial de combinar dados humanos e de máquina para melhorar nossa compreensão dos conceitos, suas características e as relações entre elas.

No geral, este estudo sugere várias direções para pesquisas futuras nos campos da ciência cognitiva, inteligência artificial e entendimento semântico, apontando para uma abordagem colaborativa que pode trazer os melhores resultados na representação conceitual.

Mais de autores

Artigos semelhantes