Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Computação e linguagem# Aprendizagem de máquinas

Melhorando Modelos de Linguagem com Novas Técnicas de Decodificação

Novos métodos melhoram os resultados dos modelos de linguagem, mantendo as regras gramaticais.

― 6 min ler


Modelos de LinguagemModelos de LinguagemMelhorados com ASAplinguagem.texto estruturado para modelos deNovas técnicas melhoram a geração de
Índice

Modelos de Linguagem Grande (MLGs) são tipo robôs chiques que conseguem escrever texto, mas às vezes têm dificuldade em gerar Saídas bem estruturadas, como código de computador ou fórmulas matemáticas. É como pedir pra um chef que só faz sobremesa preparar um soufflé-só porque ele manda bem em uma coisa, não significa que vai conseguir fazer tudo.

Pra resolver esses perrengues, algumas pessoas espertas criaram abordagens de decodificação restrita. Isso significa que elas guiam cuidadosamente os MLGs pra garantir que sigam certas regras ao criar suas saídas. Pense nisso como um conjunto de instruções para um jogo que o MLG precisa seguir pra jogar direitinho.

Nesse texto, vamos falar sobre um tipo específico de decodificação restrita chamada decodificação gramaticalmente restrita (DGR). Aqui, as saídas dos MLGs têm que seguir certas regras gramaticais. Mas tem um detalhe! Descobrimos que esses métodos às vezes bagunçam o jeito natural do MLG de gerar texto e podem gerar saídas de baixa qualidade.

É aí que entra a decodificação alinhada à gramática (DAG)! Também vamos apresentar uma nova abordagem chamada Amostragem Adaptativa com Futuros Esperados Aproximados (AAFA). O objetivo da AAFA é ajudar os MLGs a criar saídas que sigam as regras, mas que ainda soem bem e façam sentido.

Em termos simples, queremos garantir que nosso chef robô consiga fazer pratos deliciosos enquanto segue as instruções, sem suar a camisa.

O Problema com a DGR

A DGR é como dizer pro MLG: “Ei, você tem que escrever esse tipo específico de documento, então aqui estão as regras.” Embora isso ajude o MLG a se manter no caminho certo, pode distorcer a probabilidade de várias saídas. Imagine isso: você pede pro MLG escrever uma história sobre um gato, mas o método DGR acaba fazendo ele escrever sobre um gato que de repente começa a dançar como um robô. Isso é engraçado, mas não era o que a gente queria!

Percebemos que a DGR pode causar um problema. As saídas podem ser gramaticalmente corretas, mas podem ser tão improváveis pro MLG que parece uma piada ruim. Então, precisávamos de uma forma melhor de alinhar o texto gerado pelos MLGs com as regras de gramática.

Conheça a DAG

Então, o que é a DAG? É um novo jeito de garantir que, quando os MLGs geram texto, ele não só segue as regras gramaticais, mas também se encaixa nas probabilidades do que o MLG naturalmente quer escrever. É como dar pro nosso chef robô um conjunto de receitas deliciosas que são ótimas e atendem a necessidades dietéticas específicas.

A DAG ajuda a garantir que o MLG produza saídas que sejam sensatas e que sigam as regras gramaticais. Por exemplo, se a gente diz: "Escreva uma carta de amor," a DAG guia o MLG a gerar uma carta enquanto mantém seu estilo e personalidade naturais.

AAFA pra Salvar o Dia!

Agora, vamos falar sobre a AAFA, nossa ferramenta novinha em folha. Imagine isso como dar pro nosso chef robô um novo conjunto de utensílios de cozinha que ajudam ele a criar pratos melhores ao longo do tempo.

A AAFA funciona amostrando saídas repetidamente enquanto acompanha quais saídas funcionam e quais não funcionam. É muito parecido com um chef aspirante que aprende tentando diferentes receitas e ajustando-as com base no feedback.

Em vez de simplesmente forçar o MLG a seguir regras gramaticais e arriscar uma qualidade ruim, a AAFA permite que ele explore enquanto aprende gradualmente quais caminhos levam a um texto legal!

Um Passeio de Como a AAFA Funciona

Primeiro, a AAFA começa usando a abordagem padrão da DGR, descobrindo quais saídas são válidas com base nas regras gramaticais. No entanto, em vez de se ater estritamente a um método, a AAFA acompanha as saídas que já viu.

Com cada nova saída gerada, a AAFA recalibra como acha que o MLG pode se manter dentro das regras gramaticais. É como um sistema de GPS que aprende as melhores rotas com base em padrões de tráfego passados pra evitar congestionamentos no futuro.

O algoritmo continua iterando, amostrando saídas uma após a outra e aprendendo com o que funcionou e o que não funcionou. Com o tempo, ele fica melhor em produzir as saídas certas sem perder a diversão e a criatividade que o MLG pode trazer.

Avaliação e Resultados

Quando testamos nossa abordagem AAFA, ela frequentemente superou os métodos padrão, ou seja, gerou saídas que eram não só gramaticalmente corretas, mas também se alinhavam melhor ao que o MLG naturalmente geraria.

Nas nossas experiências, mostramos que a AAFA pode se destacar, especialmente em tarefas como geração de código e processamento de linguagem estruturada. É como um aluno que melhora em matemática quando recebe mais prática e orientação; a AAFA melhora quanto mais amostras pega.

O Bom, o Mau e o Futuro

Enquanto a AAFA mostrou resultados excelentes, temos que admitir que não é perfeita. Ainda há situações em que leva um tempo pra convergir na saída desejada. É como treinar pra uma maratona; não acontece da noite pro dia.

À medida que avançamos, há muito espaço pra melhorias. O futuro traz ideias promissoras, como misturar a AAFA com métodos de busca mais inteligentes pra ajudar o MLG a explorar mais eficientemente. Pense nisso como atualizar as ferramentas do nosso chef robô pra criar pratos ainda mais incríveis mais rápido.

Conclusão

Em conclusão, os MLGs são ferramentas fenomenais, mas podem se enroscar quando solicitados a produzir saídas estruturadas. Com a DAG e a AAFA, encontramos uma maneira de ajudar eles a criar conteúdo bonito e gramaticalmente preciso sem perder seu estilo.

Embora ainda tenhamos alguns desafios pela frente, o trabalho que fizemos estabelece uma base forte para desenvolvimentos futuros. Assim como um chef aperfeiçoa seu ofício, os MLGs podem aprender e se adaptar com o tempo pra entregar saídas que atendam tanto a requisitos estruturais quanto às nuances da linguagem humana.

Então, da próxima vez que você pedir pra um modelo de linguagem escrever algo estruturado, pode ficar tranquilo sabendo que ferramentas como a AAFA estão lá pra ajudar ele a brilhar! Isso é motivo de comemoração-como um soufflé que deu certo no forno!

Fonte original

Título: Grammar-Aligned Decoding

Resumo: Large Language Models (LLMs) struggle with reliably generating highly structured outputs, such as program code, mathematical formulas, or well-formed markup. Constrained decoding approaches mitigate this problem by greedily restricting what tokens an LLM can output at each step to guarantee that the output matches a given constraint. Specifically, in grammar-constrained decoding (GCD), the LLM's output must follow a given grammar. In this paper, we demonstrate that GCD techniques (and in general constrained decoding techniques) can distort the LLM's distribution, leading to outputs that are grammatical but appear with likelihoods that are not proportional to the ones given by the LLM, and so ultimately are low-quality. We call the problem of aligning sampling with a grammar constraint, grammar-aligned decoding (GAD), and propose adaptive sampling with approximate expected futures (ASAp), a decoding algorithm that guarantees the output to be grammatical while provably producing outputs that match the conditional probability of the LLM's distribution conditioned on the given grammar constraint. Our algorithm uses prior sample outputs to soundly overapproximate the future grammaticality of different output prefixes. Our evaluation on code generation and structured NLP tasks shows how ASAp often produces outputs with higher likelihood (according to the LLM's distribution) than existing GCD techniques, while still enforcing the desired grammatical constraints.

Autores: Kanghee Park, Jiayu Wang, Taylor Berg-Kirkpatrick, Nadia Polikarpova, Loris D'Antoni

Última atualização: 2024-11-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.21047

Fonte PDF: https://arxiv.org/pdf/2405.21047

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes