Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Modelos de Linguagem e Atividade Cerebral: Um Estudo

Investigando conexões entre modelos de linguagem e respostas cerebrais durante a escuta de histórias.

Eunji Kim, Sriya Mantena, Weiwei Yang, Chandan Singh, Sungroh Yoon, Jianfeng Gao

― 6 min ler


Modelos de Linguagem eModelos de Linguagem eInsights do Cérebrolinguagem de IA e a atividade cerebral.Analisando a interação entre modelos de
Índice

Estamos treinando dois modelos de linguagem diferentes. Um usa o tokenizador do GPT-2, e o outro usa o LLaMA-2. A versão do GPT-2 tem quatro camadas de transformador, enquanto a versão do LLaMA-2 tem três. Pense nesses modelos como dois carros diferentes, feitos para a mesma estrada, mas com motores ligeiramente diferentes.

O posicionamento relativo é importante na hora de comparar palavras, então usamos algo chamado Codificação Posicional Relativa. Isso permite que o modelo acompanhe onde cada palavra está em uma frase. A versão do GPT-2 tem um limite de 32 posições, enquanto a versão do LLaMA-2 consegue lidar com 64. É como ter um estacionamento maior para mais carros. O vocabulário de ambos os modelos vem de seus respectivos predecessores, garantindo que tudo se encaixe direitinho.

Criando Pares de Similaridade com Modelos de Linguagem

Para treinar esses modelos, usamos o LLaMA-2 como mentor. Juntamos muitos textos de fontes diferentes para alimentar cada modelo, dependendo do tokenizador que está sendo usado. Durante o treinamento, escolhemos aleatoriamente sequências de 32 ou 64 palavras, com um tamanho de lote de 128 ou 256. Isso significa que estamos analisando um número enorme de possibilidades de palavras em cada rodada de treinamento.

Depois, criamos pares de palavras que são semelhantes com base em certos cálculos. Pense nos pares de similaridade como pares de amigos que saem juntos. Comparamos com que frequência eles aparecem juntos no material de treinamento. Os modelos aprendem a prever a próxima palavra com base no que já viram até agora. Eles usam uma combinação de diferentes funções de perda para treinar, o que significa que buscam se aproximar das previsões certas ao longo do tempo. Esse treinamento continua por um bom tempo em algumas GPUs potentes, que são como calculadoras sofisticadas para esse tipo de trabalho.

Encontrando o Limite Certo para Estimativas

Uma vez que temos nossos modelos, precisamos definir um limite para previsões eficazes. Esse limite ajuda a determinar quando o modelo está indo bem. Para encontrar o melhor número para esse limite, testamos diferentes configurações usando um conjunto de treinamento com 100 milhões de tokens. É como testar várias receitas para encontrar a mais saborosa.

Analisamos seis conjuntos de dados para ver como diferentes configurações afetaram o desempenho do modelo. Para cada conjunto de dados, usamos um para testes enquanto os outros ajudaram na construção do modelo principal. Depois, comparamos como os modelos se saíram quando o limite efetivo foi ajustado para diferentes valores. Descobrimos que o tokenizador do GPT-2 funcionou melhor quando ajustado para 8, enquanto o tokenizador do LLaMA-2 teve um desempenho melhor em 9.

Comparando a Precisão do Próximo Token

Nas nossas avaliações, usamos vários conjuntos de dados como referência. Para alguns conjuntos de dados, criamos nossas próprias referências, enquanto para outros, usamos modelos disponíveis publicamente. Realizamos testes para verificar como os modelos se saíram na previsão da próxima palavra em uma sequência.

Ao comparar os modelos, percebemos que, enquanto um pode demorar mais para gerar respostas, muitas vezes resulta em saídas melhores. É como esperar mais por uma refeição deliciosa em um restaurante em vez de um lanche rápido. A espera mais longa pode levar a uma experiência mais satisfatória.

Também analisamos exemplos onde os modelos podiam combinar palavras exatamente e onde tiveram que depender de combinações aproximadas. Isso é como tentar reconhecer um amigo em uma multidão-se você não consegue vê-lo claramente, pode ainda ter uma noção de quem ele é com base na roupa ou no penteado.

Insights dos Dados de fMRI

Também analisamos a Atividade Cerebral usando fMRI, um método que ajuda a ver como o cérebro reage enquanto as pessoas ouvem histórias. Coletamos dados de três pessoas enquanto elas curtiam alguns podcasts. Não houve necessidade de resposta; elas apenas ouviram.

Ao longo de várias sessões de escaneamento, os sujeitos ouviram cerca de 20 horas de histórias únicas. Cada sessão forneceu muitos pontos de dados que podíamos analisar. Fizemos algumas medições sofisticadas para ver como o cérebro reagiu às histórias e criamos um modelo que prevê a atividade cerebral com base nas palavras ouvidas.

Para analisar os dados, filtramos o ruído e garantimos que tudo estivesse devidamente alinhado. Removemos partes das gravações que poderiam confundir nossas conclusões. O objetivo aqui era ver se entender a linguagem poderia ser ligado a funções cerebrais específicas.

Combinações Aproximadas nas Respostas Cerebrais

Em nosso estudo dos dados cerebrais, criamos um modelo de combinação aproximada. Esse modelo ajuda a descobrir como as palavras se relacionam entre si, mesmo que não sejam correspondências exatas. Usamos algumas matemáticas inteligentes para comparar quão provável é a próxima palavra com base em sua semelhança com as anteriores.

Ao suavizar nossos dados para se encaixar no tempo do cérebro, conseguimos fazer previsões mais precisas das respostas cerebrais que correspondem às palavras que estão sendo ouvidas. Isso ajudou a mostrar como palavras diferentes poderiam ativar a mesma atividade cerebral, mesmo que não fossem idênticas.

Comparando o Desempenho de Previsão

Em seguida, testamos como o modelo de combinação aproximada se saiu em comparação com o modelo de combinação exata. Apesar de nossos esforços, o modelo de indução fuzzy não superou o modelo de combinação exata por muito. Isso pode ser porque os dados cerebrais são barulhentos e nem sempre fáceis de interpretar.

Pense assim: se você está ouvindo uma música em uma sala cheia, pode ouvir a melodia, mas não pegar cada palavra. O modelo fuzzy é assim-ele consegue captar a vibe geral, mas pode perder os detalhes finos. Os resultados mostraram que, enquanto palavras semelhantes podiam ativar as mesmas áreas do cérebro, as diferenças eram muitas vezes sutis.

Aplicações no Mundo Real

Entender as conexões entre linguagem e cérebro pode ajudar em diferentes áreas. Por exemplo, isso pode ajudar a melhorar métodos de ensino, iluminar como ajudar pessoas com dificuldades de linguagem, ou até contribuir para uma inteligência artificial que imita o entendimento humano de forma mais precisa.

Em resumo, à medida que desenvolvemos esses modelos e exploramos as respostas do cérebro, fica mais claro como a linguagem funciona em vários níveis-desde os algoritmos que movem o aprendizado de máquina até os circuitos neurais em nossos cérebros. É um campo empolgante, cheio de possibilidades, e enquanto o processo de aprendizado pode ser complexo, também pode ser bastante divertido!

Fonte original

Título: Interpretable Language Modeling via Induction-head Ngram Models

Resumo: Recent large language models (LLMs) have excelled across a wide range of tasks, but their use in high-stakes and compute-limited settings has intensified the demand for interpretability and efficiency. We address this need by proposing Induction-head ngram models (Induction-Gram), a method that builds an efficient, interpretable LM by bolstering modern ngram models with a hand-engineered "induction head". This induction head uses a custom neural similarity metric to efficiently search the model's input context for potential next-word completions. This process enables Induction-Gram to provide ngram-level grounding for each generated token. Moreover, experiments show that this simple method significantly improves next-word prediction over baseline interpretable models (up to 26%p) and can be used to speed up LLM inference for large models through speculative decoding. We further study Induction-Gram in a natural-language neuroscience setting, where the goal is to predict the next fMRI response in a sequence. It again provides a significant improvement over interpretable models (20% relative increase in the correlation of predicted fMRI responses), potentially enabling deeper scientific investigation of language selectivity in the brain. The code is available at https://github.com/ejkim47/induction-gram.

Autores: Eunji Kim, Sriya Mantena, Weiwei Yang, Chandan Singh, Sungroh Yoon, Jianfeng Gao

Última atualização: 2024-10-31 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.00066

Fonte PDF: https://arxiv.org/pdf/2411.00066

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes