Adaptando Modelos de Linguagem Sem Dados Caros

Índice

Fonte original
Ligações de referência

Grandes modelos de linguagem (LLMs) são treinados em conjuntos grandes de dados para aprender várias informações através de treinamento auto-supervisionado. Depois dessa fase, eles passam por uma etapa chamada ajuste de instrução. Isso ajuda eles a responder diferentes tipos de perguntas corretamente. Mas, quando a gente quer adaptar esses LLMs pré-treinados para novas áreas, tipo organizações específicas ou períodos de tempo, geralmente precisa de muito trabalho manual pra rotular os dados. Isso pode ser caro. Pra resolver esse problema, introduzimos uma nova tarefa chamada Adaptação não supervisionada de LLMs para perguntas e respostas.

Nessa tarefa, usamos um LLM pré-treinado junto com um conjunto de dados de perguntas e respostas (QA) existente e documentos não rotulados da área que queremos focar. Nosso objetivo é ajudar o LLM a responder perguntas que se relacionam com esses documentos não rotulados.

Criamos um conjunto de dados sintético e dois conjuntos de dados do mundo real pra testar modelos que foram ajustados usando tanto os conjuntos de dados de origem quanto os de destino. Achamos alguns resultados interessantes:

Os modelos ajustados conseguiam dar respostas corretas pra perguntas sobre a nova área, mesmo sem ter visto aquelas perguntas específicas antes.
Eles tinham dificuldade pra encontrar informações que estavam no meio ou no final dos documentos.
Esse problema poderia ser um pouco melhorado substituindo alguns tokens de entrada por aleatórios durante o processo de treinamento.

Modelos de linguagem grandes ajustados por instrução que são pré-treinados em grandes quantidades de dados mostram uma boa habilidade pra lidar com uma variedade de tarefas.

A forma padrão de ajustar LLMs envolve um processo chamado fine-tuning, que muitas vezes vem com custos significativos. Em vez disso, na nossa tarefa, focamos em como adaptar LLMs sem usar pares de QA específicos da área que estamos estudando. A gente usa um conjunto de dados de QA genérico como nosso ponto de partida, o que ajuda a manter os custos de anotação baixos.

O processo de treinamento para LLMs envolve duas etapas principais: pré-treinamento e ajuste de instrução. Durante o pré-treinamento, o modelo aprende a partir de um grande conjunto de dados usando objetivos auto-supervisionados. Na fase de ajuste de instrução, ele é ajustado em um conjunto de tarefas que são configuradas como instruções. No nosso trabalho, pré-treinamento se refere a esse treinamento em larga escala com aprendizado auto-supervisionado em dados não rotulados.

Esses modelos são bons em recuperar conhecimento factual através de QA. Esse "conhecimento" se refere a informações que são factuais e mencionadas nos dados nos quais foram treinados. Um papel chave do ajuste de instrução é ajudar o modelo a extrair esse conhecimento do seu processo de pré-treinamento. Mas, como o conhecimento é limitado aos dados disponíveis durante o período de treinamento-tipo Wikipedia e outras fontes-os modelos não conseguem obter informações sobre áreas que não estão incluídas nos dados de treinamento deles.

Quando a gente quer adaptar o modelo a uma nova área, como uma organização específica, um campo científico ou artigos de notícias do dia a dia, o modelo precisa aprender novas informações apresentadas através de vários documentos, que podem mudar diariamente. Mas, coletar constantemente dados de treinamento para ajuste de instrução em cada nova área exige muitos recursos. Portanto, seria melhor se os LLMs pudessem se adaptar a novas áreas sem precisar de dados de treinamento caros.

Pra enfrentar esse desafio, propomos nossa nova tarefa: adaptação não supervisionada de LLMs para perguntas e respostas. A gente assume que temos acesso a um LLM pré-treinado, um conjunto de dados de ajuste de instrução genérico e documentos não rotulados que contêm novas informações. Esses documentos são simplesmente coleções de frases sem nenhuma marcação de QA. Os dados de origem visam manter a capacidade do LLM de responder perguntas intacta enquanto os dados de destino vão ser o que será consultado durante o teste.

Esperamos treinar o LLM pra responder corretamente a perguntas sobre o conhecimento encontrado nesses documentos de destino, apesar de não ter supervisão direta na forma de pares de QA daquela área. Esse trabalho visa não só fornecer uma solução econômica pra adaptar LLMs a áreas específicas, mas também revelar quão bem esses modelos podem armazenar conhecimento de documentos não rotulados e extraí-lo depois quando necessário.

A gente também pesquisou estudos anteriores que investigam como os LLMs memorizam conhecimento factual. Alguns estudos checaram se os LLMs podem responder perguntas com base na exposição a perguntas semelhantes durante a fase de ajuste de instrução ou se eles realmente extraem informações aprendidas durante o pré-treinamento. Eles descobriram que os LLMs podem responder perguntas sobre novas entidades se uma ampla augmentation de dados for empregada durante o pré-treinamento.

No nosso trabalho, a gente foca mais na capacidade do modelo de armazenar e extrair conhecimento sem precisar de pares de QA específicos pra nova área. Outros estudos também olharam como mudar o conhecimento em LLMs, geralmente focando em editar fatos existentes em vez de adicionar novas informações. O nosso interesse está em como adicionar e utilizar novo conhecimento, o que muitas vezes requer um contexto mais amplo do que sentenças simples.

Existem abordagens existentes que ajustam LLMs para áreas específicas, como conhecimento médico, mas elas ainda dependem de dados de instrução, ao contrário do nosso método, que busca uma forma de alcançar a adaptação sem depender muito de dados rotulados caros. A adaptação de domínio não supervisionada (UDA) também foi estudada para várias tarefas em processamento de linguagem natural (NLP). Somos os primeiros a focar na adaptação não supervisionada de LLMs para tarefas de perguntas e respostas e examinar quão bem os LLMs ajustados podem armazenar e extrair conhecimento de documentos não rotulados.

Uma opção pra responder perguntas sobre novas áreas envolve geração aumentada por recuperação (RAG), onde o modelo recupera vários documentos pra formular respostas. Mas, RAG exige um modelo de recuperação poderoso, e o LLM precisa lidar com um contexto longo-o que pode ser complexo. Portanto, nosso método de adaptar LLMs que não requer recuperação é uma solução mais simples.

O Viés Posicional é um problema conhecido com LLMs. Isso significa que quando dados longos são dados pra tarefas de QA, os LLMs muitas vezes falham em puxar informações localizadas no meio. Modelos treinados com distribuições distorcidas de posições de resposta também têm dificuldades. Algumas soluções foram propostas pra lidar com esse viés, mas nosso trabalho especificamente verifica se os LLMs podem recuperar informações de seus documentos de treinamento sem precisar de um contexto longo.

A gente também introduziu três conjuntos de dados pra testar a capacidade dos LLMs de aprender novos conhecimentos. Um conjunto de dados é sintético, enquanto dois são conjuntos de dados do mundo real. A gente enfatiza se LLMs ajustados podem extrair fatos apesar de não ter visto nenhum dado específico de QA pra nova área.

O conjunto de dados de biografia sintética é construído contendo frases que descrevem várias propriedades (como data de nascimento, local de nascimento, escola, etc.) para um grupo de pessoas. Usamos uma configuração onde perguntamos ao modelo sobre propriedades específicas com base nas informações que ele aprendeu.

O conjunto de dados Paper2023 consiste em pares de títulos de artigos e resumos de conferências recentes. Aqui, a gente assume que documentos do mundo real seguem alguma estrutura. Por exemplo, artigos científicos listam seus conteúdos usando títulos de seções. Portanto, criamos um conjunto de dados onde os conteúdos estão organizados em torno de alguns temas principais.

Finalmente, para o conjunto de dados News2023, recuperamos artigos cobrindo vários tópicos ao longo de alguns meses. Nosso objetivo era estudar como o modelo lida com informações não estruturadas em comparação com documentos estruturados.

Nossos testes mostraram que um LLM ajustado não supervisionado pode responder perguntas corretamente, mas ele geralmente se sai melhor quando a resposta está localizada no começo dos documentos. O modelo tem dificuldade de acessar informações do meio ou do final devido ao seu método de treinamento.

A substituição aleatória de tokens (RTR) se mostrou eficaz em melhorar a robustez do modelo em relação ao viés posicional. Ao substituir certos tokens durante o treinamento, o modelo aprende a prever respostas mesmo com informações incompletas, imitando cenários de consulta da vida real.

Pra resumir nossas contribuições:

Introduzimos uma nova tarefa de adaptação não supervisionada de LLMs para perguntas e respostas e criamos conjuntos de dados pra avaliar como os modelos se saem.
Nossos achados mostram que LLMs podem recuperar informações de documentos sem a necessidade de dados específicos de QA.
Identificamos um desafio onde os LLMs tendem a mostrar viés posicional ao responder perguntas baseadas em documentos. A técnica RTR ajuda a mitigar esse problema.

A gente também explorou como fatores como tamanho do modelo e o tipo de conjunto de dados de QA externo afetam o desempenho.

Na seção de trabalhos relacionados, revisamos como os LLMs memorizam fatos e como suas habilidades de extração de conhecimento estão sendo estudadas. Notamos as dificuldades que muitos modelos têm ao lidar com viés posicional.

Criamos três novos conjuntos de dados pra testar as habilidades de aprendizado e recuperação dos LLMs: um conjunto de dados de biografia sintética, um conjunto de dados Paper2023 com artigos científicos, e um conjunto de dados News2023 com artigos de notícias. Cada conjunto de dados serve pra iluminar como os modelos se adaptam a tipos variados de informação.

Através das nossas investigações, descobrimos que LLMs ajustados geralmente se destacam na recuperação de informações corretas, especialmente quando essas informações são encontradas no início de um documento. Por outro lado, eles enfrentam desafios quando a informação está localizada no meio ou no final dos textos.

Além disso, concluímos que nosso método de substituição aleatória de tokens ajuda a reduzir o viés posicional, que é uma descoberta significativa pra trabalhos futuros. Esse estudo abre novos caminhos pra anotar modelos de maneira econômica.

Na seção de impacto mais amplo, destacamos que nosso trabalho pode melhorar muito o campo do aprendizado de máquina eficiente. Enquanto sempre há repercussões sociais potenciais da nossa pesquisa, é crucial considerar esses aspectos em desenvolvimentos futuros.

Por fim, agradecemos a quem forneceu insights valiosos durante nosso trabalho. Essa pesquisa foi auxiliada por vários órgãos de apoio e utilizou uma quantidade significativa de recursos computacionais.

Na seção final, descrevemos os processos envolvidos na criação dos nossos conjuntos de dados e detalhamos os métodos experimentais utilizados durante os testes. Os procedimentos pra coletar nossos conjuntos de dados sintéticos envolveram gerar indivíduos fictícios junto com suas respectivas descrições, enquanto os conjuntos de dados do mundo real foram compilados a partir de conferências profissionais e eventos atuais recentes.

Em conclusão, nossos achados fornecem insights valiosos na adaptação de LLMs a novas áreas sem os custos assustadores de extensas anotações, marcando um passo à frente na eficiência das tecnologias de aprendizado de máquina.

Adaptando Modelos de Linguagem Sem Dados Caros

Um novo método pra adaptar LLMs sem precisar de muitos rótulos.

Ligações de referência

Tópicos referenciados