Usando Modelos de Linguagem pra Entender a Previsibilidade na Leitura
Pesquisadores estão explorando como os LLMs melhoram a compreensão da previsibilidade das palavras na leitura.
― 8 min ler
Índice
Os humanos conseguem ler muito rápido e de forma eficaz. Pesquisadores investigaram como isso acontece, focando numa ideia chave: quando lemos, muitas vezes palpitamos o que vem a seguir com base no que já lemos. Essa habilidade de esperar o que está por vir nos permite acompanhar o ritmo acelerado da língua. Embora a maioria das pessoas concorde que esse palpite ou previsão acontece, ainda há muito que não está claro sobre como podemos medir essas previsões com precisão.
Um método comum usado em pesquisas de leitura é chamado de normatização Cloze. Essa técnica envolve pedir às pessoas para preencher palavras faltantes em uma frase e depois calcular com que frequência cada palavra foi escolhida. A ideia é que, se muitas pessoas escolhem a mesma palavra, ela deve ser um bom palpite para aquele lugar. Porém, esse método tem seus problemas. Por exemplo, ele não reflete sempre o palpite rápido que ocorre quando alguém está realmente lendo. Em vez disso, as pessoas têm tempo para pensar sobre suas respostas, o que é bem diferente de como lemos.
Nesse contexto, os pesquisadores estão explorando uma nova abordagem usando Modelos de Linguagem de Grande Escala (LLMs). Esses são modelos de computador avançados que preveem qual palavra deve vir a seguir em uma frase com base nas palavras que vieram antes. Diferente da normatização Cloze, que faz uma média das respostas de um grupo de pessoas, os LLMs analisam as relações entre todas as palavras em seu vocabulário. Isso os torna potencialmente mais eficazes em capturar o palpite que rola durante a leitura, especialmente para palavras que podem não ser frequentemente previstas.
O Que São Modelos Computacionais de Leitura?
Modelos computacionais de leitura ajudam os pesquisadores a entender como processamos a linguagem enquanto lemos. Em termos simples, esses modelos tentam imitar os processos mentais que acontecem quando lemos. Um tipo chave de modelo foca em como nossos olhos se movem enquanto lemos. Esses modelos tentam explicar como nossos cérebros controlam os Movimentos Oculares durante a leitura, incluindo o reconhecimento de palavras, o movimento dos olhos e a compreensão da linguagem.
Embora esses modelos funcionem bem para alguns aspectos da leitura, eles costumam simplificar como consideramos o contexto prévio ao reconhecer novas palavras. Normalmente, eles usam valores fixos atribuídos às palavras com base na normatização Cloze, o que significa que não levam em conta os palpites dinâmicos que fazemos enquanto lemos.
Limitações da Normatização Cloze
A normatização Cloze é um método popular para entender a Previsibilidade de palavras, mas tem várias limitações. Primeiro, a tarefa Cloze não é cronometrada, permitindo que as pessoas pensem mais sobre suas respostas. Isso pode levar a resultados diferentes em comparação com a leitura real. Quando lemos, gastamos apenas uma fração de segundo em cada palavra, que é muito mais rápido do que o processo reflexivo usado nas tarefas Cloze.
Segundo, se uma palavra não for frequentemente prevista nas completions Cloze, pode ser que não tenhamos uma boa ideia de quão previsível ela é ao ler. Algumas pesquisas mostram que até palavras menos prováveis podem impactar a leitura, mas a Cloze não captura isso.
As Vantagens dos Modelos de Linguagem de Grande Escala
Os Modelos de Linguagem de Grande Escala podem fornecer um método diferente de estimar a previsibilidade de palavras. Esses modelos são projetados para prever a próxima palavra em uma sequência. Eles são treinados usando uma quantidade enorme de textos e aprendem a associar palavras com seu contexto. Esse treinamento permite que eles atribuam um valor de probabilidade a cada palavra com base em todas as palavras que vieram antes.
Uma grande vantagem de usar LLMs é que eles podem refletir a previsibilidade de palavras que nunca foram mencionadas nas respostas Cloze. Eles também conseguem captar melhor as nuances do contexto semântico (significado) e sintático (estrutura) do que a abordagem tradicional de normatização Cloze.
Os Objetivos Desta Pesquisa
O estudo tem como objetivo ver como os LLMs se saem em prever o comportamento das palavras em comparação com a normatização Cloze, especialmente no que diz respeito aos movimentos oculares na leitura. Os pesquisadores querem entender como a previsibilidade das palavras afeta o comportamento de leitura e se os LLMs podem fornecer uma imagem mais precisa.
Os pesquisadores construíram um modelo chamado OB1-reader para simular como os movimentos oculares e o reconhecimento de palavras funcionam juntos durante a leitura. Eles acreditam que as previsões feitas sobre palavras futuras impactam a maneira como reconhecemos essas palavras enquanto lemos.
Como as Previsões Afetam a Leitura
A hipótese é que, quando fazemos previsões sobre o que leremos a seguir, isso nos ajuda a reconhecer as palavras mais rapidamente. Isso acontece de duas maneiras principais. Primeiro, a previsibilidade é graduada - quanto mais previsível uma palavra é, mais fácil se torna reconhecê-la. Segundo, as previsões podem acontecer em vários pontos do texto ao mesmo tempo.
À medida que a leitura avança, o modelo adiciona as informações dessas previsões ao que já foi processado, ajudando a reconhecer as palavras mais rápido e melhorar a eficiência da leitura. Os pesquisadores querem mostrar que usar previsões de LLM levará a um modelo melhor do comportamento de leitura humano.
Resultados da Pesquisa
Nos testes, os pesquisadores descobriram que usar valores de previsibilidade dos LLMs deu melhores resultados na simulação dos movimentos oculares em comparação com as estimativas tradicionais de Cloze. Eles realizaram simulações com diferentes configurações, comparando LLMs com normas Cloze em várias medidas de movimentos oculares, incluindo quanto tempo os olhos fixaram nas palavras e taxas de omissão.
Para a duração da primeira fixação, as previsões dos LLMs funcionaram melhor. Maior previsibilidade levou a fixações iniciais ligeiramente mais curtas, mostrando que os LLMs puderam captar uma relação semelhante à vista nas normas Cloze.
Para a Duração do Olhar, novamente, os LLMs produziram o menor erro. Em geral, maior previsibilidade encurtou a duração do olhar, e os resultados dos LMs se alinharam bem com os dados de leitura reais.
No entanto, as taxas de omissão mostraram uma descoberta interessante. O modelo previu taxas de omissão mais altas com o aumento da previsibilidade, mas isso não se alinhou totalmente com os dados humanos, sugerindo que há mais a entender sobre como as decisões de pular são feitas ao ler.
No geral, os achados sugeriram que os LLMs, especialmente os modelos maiores, foram eficazes em estimar a previsibilidade das palavras e que poderiam ajudar a melhorar os modelos de leitura.
Implicações para Compreender a Leitura
A pesquisa destaca o potencial dos LLMs não apenas como ferramentas para prever a linguagem, mas também como um meio de entender melhor a leitura. Ao combinar LLMs com modelos cognitivos de leitura, os pesquisadores podem explorar como os leitores processam a linguagem em um nível mais profundo.
Ainda é preciso ter cautela ao comparar diretamente LLMs e a cognição humana. Embora os LLMs possam prever com precisão padrões linguísticos, isso não significa que funcionem da mesma forma que o cérebro humano. A relação entre as previsões dos modelos e a cognição humana requer uma interpretação cuidadosa para evitar conclusões exageradas.
Além disso, os LLMs podem realizar as mesmas tarefas, como prever qual palavra vem a seguir, mas isso não implica que estejam processando a linguagem da mesma maneira que os humanos. Ambos os sistemas aprendem com o contexto, mas os mecanismos subjacentes podem ser bem diferentes.
O Futuro da Pesquisa em Leitura
À medida que os pesquisadores continuam a estudar como lemos, os LLMs podem fornecer insights valiosos. Eles podem aprimorar modelos cognitivos ao adicionar informações sobre a previsibilidade das palavras que poderiam ser perdidas com métodos tradicionais.
Essa exploração pode levar a uma melhor compreensão dos mecanismos cognitivos em ação quando processamos a linguagem. A combinação de modelos de linguagem avançados com teorias cognitivas representa uma abordagem promissora para desvendar as complexidades da leitura e da compreensão.
Resumindo, usar LLMs pode melhorar significativamente como estudamos o comportamento de leitura. Juntos, esses modelos podem esclarecer como os leitores entendem o texto, fazendo contribuições significativas para nossa compreensão do processamento da linguagem no cérebro humano.
Título: Language models outperform cloze predictability in a cognitive model of reading
Resumo: Although word predictability is commonly considered an important factor in reading, sophisticated accounts of predictability in theories of reading are yet lacking. Computational models of reading traditionally use cloze norming as a proxy of word predictability, but what cloze norms precisely capture remains unclear. This study investigates whether large language models (LLMs) can fill this gap. Contextual predictions are implemented via a novel parallel-graded mechanism, where all predicted words at a given position are pre-activated as a function of contextual certainty, which varies dynamically as text processing unfolds. Through reading simulations with OB1-reader, a cognitive model of word recognition and eye-movement control in reading, we compare the models fit to eye-movement data when using predictability values derived from a cloze task against those derived from LLMs (GPT2 and LLaMA). Root Mean Square Error between simulated and human eye movements indicates that LLM predictability provides a better fit than Cloze. This is the first study to use LLMs to augment a cognitive model of reading with higher-order language processing while proposing a mechanism on the interplay between word predictability and eye movements. Author SummaryReading comprehension is a crucial skill that is highly predictive of later success in education. One aspect of efficient reading is our ability to predict what is coming next in the text based on the current context. Although we know predictions take place during reading, the mechanism through which contextual facilitation affects ocolarmotor behaviour in reading is not yet well-understood. Here, we model this mechanism and test different measures of predictability (computational vs. empirical) by simulating eye movements with a cognitive model of reading. Our results suggest that, when implemented with our novel mechanism, a computational measure of predictability provide better fits to eye movements in reading than a traditional empirical measure. With this model, we scrutinize how predictions about upcoming input affects eye movements in reading, and how computational approches to measuring predictability may support theory testing. In the short term, modelling aspects of reading comprehension helps reconnect theory building and experimentation in reading research. In the longer term, more understanding of reading comprehension may help improve reading pedagogies, diagnoses and treatments.
Autores: Adrielli Tina Lopes Rego, J. Snell, M. Meeter
Última atualização: 2024-04-30 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.29.591593
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.29.591593.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.