Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Arquitetura de Hardware

Avanços no Processamento de Modelos Transformer

Acelerador híbrido melhora a velocidade e a eficiência dos modelos Transformer.

― 7 min ler


Acelerador Híbrido paraAcelerador Híbrido paraModelos de Transformadoruso de energia.Aumenta o desempenho e reduz bastante o
Índice

Transformers são um tipo de modelo usado em processamento de linguagem natural (NLP), que é a área que estuda como os computadores entendem a linguagem humana. Esses modelos ficaram super populares porque conseguem fazer várias tarefas de linguagem, como traduzir textos ou gerar respostas. Um dos motivos pelos quais eles funcionam tão bem é o mecanismo de atenção, que ajuda o modelo a identificar quais partes de uma frase são importantes em relação umas às outras. Mas esses modelos são bem grandes, muitas vezes com centenas de bilhões de parâmetros. Isso torna eles lentos e consomem muita energia, precisando de bastante acesso à memória para funcionar, o que pode ser um desafio para o hardware de computador tradicional.

Desafios com os Aceleradores Atuais

O hardware atual de deep learning, como GPUs e TPUs, tem dificuldade em acompanhar as demandas dos Transformers. Isso porque não foram projetados para lidar com modelos grandes de forma eficiente. O mecanismo de atenção nos Transformers exige muitos cálculos, especialmente multiplicações de matriz e vetor, onde as entradas podem mudar toda vez que novos dados são processados. O hardware tradicional não consegue lidar bem com isso.

Para resolver as limitações do hardware tradicional, os pesquisadores têm investigado um tipo diferente de memória chamado memória não volátil (NVM). Esse tipo de memória tem uma alta densidade e consegue armazenar muitos dados enquanto realiza muitos cálculos ao mesmo tempo. No entanto, a NVM também tem seus próprios desafios. O jeito que os Transformers funcionam requer bastante escrita nessa memória, que é lenta e consome muita energia. Além disso, a maioria dos tipos de NVM tem uma vida útil limitada, complicando ainda mais seu uso.

Uma Nova Abordagem de Design de Hardware

Para enfrentar esses problemas, um acelerador híbrido de hardware em memória foi desenvolvido. Esse sistema combina NVM com tecnologia CMOS tradicional, criando uma maneira mais eficiente de rodar modelos Transformers. O novo design tem dois componentes principais: o Motor de Projeção e o Motor de Atenção. O Motor de Projeção cuida do armazenamento de pesos e de certos cálculos, enquanto o Motor de Atenção lida com os aspectos mais dinâmicos do processamento.

A abordagem inclui um método chamado bloqueio de sequência, que melhora a forma como o hardware é utilizado. Em vez de esperar um processo terminar antes de começar o próximo, o hardware pode trabalhar em várias partes da tarefa ao mesmo tempo. Isso ajuda a economizar tempo e energia, tornando todo o sistema mais eficiente.

Como os Transformers Funcionam

Para entender como esse novo hardware pode ajudar, é importante saber como os Transformers operam. Uma rede Transformer típica consiste em camadas que processam uma sequência de palavras. Cada palavra é transformada em um vetor, que é uma forma de representá-la matematicamente. Essas palavras passam por várias camadas, com cada camada realizando operações específicas.

O mecanismo de atenção é particularmente interessante porque ajuda o modelo a pesar a importância de cada palavra em relação às outras. Ele faz isso usando matrizes, que podem ser vistas como grades de números, onde cada número representa informações sobre as palavras. Essas grades precisam ser atualizadas frequentemente à medida que novos dados chegam, que é onde surgem os desafios.

Desafios Computacionais

Transformers enfrentam diferentes tipos de computação em comparação com redes neurais tradicionais, especialmente quando se trata de classificação de imagens. Nas redes típicas, muitas operações envolvem pesos estáticos que não mudam com frequência. Em contraste, os Transformers precisam de operações dinâmicas porque os pesos são recalculados para cada novo lote de dados. Isso significa que o sistema deve continuar se adaptando, o que consome recursos e aumenta a complexidade.

À medida que o tamanho dos modelos cresce, os requisitos de memória também aumentam. Isso porque modelos maiores precisam armazenar mais informações. Quando o modelo é muito grande para a memória on-chip, precisa acessar a memória off-chip, que é muito mais lenta e consome mais energia. O resultado é uma queda significativa no desempenho e na eficiência.

Visão Geral do Novo Hardware

O acelerador híbrido de hardware em memória foi projetado para resolver esses problemas ao combinar as forças das tecnologias NVM e CMOS. O Motor de Projeção geralmente usa NVM para operações que podem tolerar gravações lentas, enquanto o Motor de Atenção utiliza CMOS para operações que exigem velocidade e eficiência.

Separando essas tarefas, o sistema evita os problemas de usar NVM para cada computação. O design garante que os pesos do modelo sejam armazenados de forma eficiente, minimizando a necessidade de reescritas constantes. Isso ajuda a manter um alto desempenho mesmo com modelos complexos.

A nova arquitetura possui um sistema de bus especial que permite comunicação rápida entre os dois motores. Isso é essencial para manter os dados fluindo suavemente e reduz o tempo perdido esperando um componente terminar antes do próximo começar.

Benefícios do Bloqueio de Sequência

Uma das principais inovações desse novo sistema é o fluxo de dados de bloqueio de sequência. Esse método divide a sequência de entrada em blocos menores. Processando esses blocos um após o outro, ambos os motores podem trabalhar simultaneamente, o que melhora bastante a utilização do hardware.

Em contraste, o fluxo de dados tradicional muitas vezes deixa um motor ocioso enquanto o outro está trabalhando. Isso resulta em desperdício de recursos e tempos de processamento mais longos. Mantendo ambos os motores ativos, o sistema pode lidar com as entradas de forma mais eficaz sem sacrificar a precisão.

É importante notar que, embora a sequência geral seja processada em partes menores, as pontuações de atenção ainda são calculadas corretamente para cada palavra em relação a todas as outras. Esse método permite uma melhor gestão da memória, já que o tamanho das ativações intermediárias permanece constante, em vez de crescer com o comprimento total da sequência.

Metodologia Experimental

Para avaliar o desempenho do novo acelerador, várias simulações e benchmarks foram usados. Isso envolveu analisar o consumo de energia e a eficiência do sistema em comparação com processadores padrão, como a NVIDIA GeForce GTX 1060.

Diferentes configurações de modelos Transformers foram testadas contra tarefas comuns de NLP. Os resultados indicaram melhorias significativas tanto em velocidade quanto em eficiência energética ao usar a nova configuração.

Resultados e Descobertas

Os resultados mostraram que o novo design de hardware poderia alcançar até 85 vezes mais desempenho e menor consumo de energia do que GPUs tradicionais, além de superar os aceleradores NVM em memória de última geração.

Por exemplo, em benchmarks específicos de NLP, o acelerador híbrido em memória não só demonstrou melhorias de velocidade, mas também reduziu a energia necessária para as operações. Isso é um fator crucial, especialmente à medida que o tamanho dos modelos de Transformer continua crescendo.

A eficiência energética é uma consideração particularmente importante, já que modelos de deep learning podem ser pesados em recursos. O design inovador do novo hardware ajuda a mitigar essas preocupações mantendo o uso de energia baixo enquanto mantém um alto desempenho.

Conclusão

Em resumo, os Transformers representam uma ferramenta poderosa para processamento de linguagem natural, mas seu tamanho grande e suas necessidades operacionais únicas podem criar desafios para o hardware tradicional. O novo acelerador híbrido em memória é um desenvolvimento empolgante que aborda essas questões de frente, combinando tecnologias NVM e CMOS para criar um sistema mais eficiente para processar modelos complexos.

Através de inovações como o bloqueio de sequência, a arquitetura pode utilizar o hardware de forma mais eficaz, levando a ganhos impressionantes em velocidade e eficiência energética. À medida que a pesquisa continua nessa área, vai ser interessante ver como esses avanços podem aprimorar ainda mais as capacidades das tecnologias de machine learning e processamento de linguagem natural.

Fonte original

Título: X-Former: In-Memory Acceleration of Transformers

Resumo: Transformers have achieved great success in a wide variety of natural language processing (NLP) tasks due to the attention mechanism, which assigns an importance score for every word relative to other words in a sequence. However, these models are very large, often reaching hundreds of billions of parameters, and therefore require a large number of DRAM accesses. Hence, traditional deep neural network (DNN) accelerators such as GPUs and TPUs face limitations in processing Transformers efficiently. In-memory accelerators based on non-volatile memory promise to be an effective solution to this challenge, since they provide high storage density while performing massively parallel matrix vector multiplications within memory arrays. However, attention score computations, which are frequently used in Transformers (unlike CNNs and RNNs), require matrix vector multiplications (MVM) where both operands change dynamically for each input. As a result, conventional NVM-based accelerators incur high write latency and write energy when used for Transformers, and further suffer from the low endurance of most NVM technologies. To address these challenges, we present X-Former, a hybrid in-memory hardware accelerator that consists of both NVM and CMOS processing elements to execute transformer workloads efficiently. To improve the hardware utilization of X-Former, we also propose a sequence blocking dataflow, which overlaps the computations of the two processing elements and reduces execution time. Across several benchmarks, we show that X-Former achieves upto 85x and 7.5x improvements in latency and energy over a NVIDIA GeForce GTX 1060 GPU and upto 10.7x and 4.6x improvements in latency and energy over a state-of-the-art in-memory NVM accelerator.

Autores: Shrihari Sridharan, Jacob R. Stevens, Kaushik Roy, Anand Raghunathan

Última atualização: 2023-03-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.07470

Fonte PDF: https://arxiv.org/pdf/2303.07470

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes