Simple Science

Ciência de ponta explicada de forma simples

# Informática# Arquitetura de Hardware

Avanços no Processamento de Modelos de Linguagem Grande no Dispositivo

Nova arquitetura melhora o desempenho de modelos de linguagem grandes em dispositivos locais.

Zhongkai Yu, Shengwen Liang, Tianyun Ma, Yunke Cai, Ziyuan Nan, Di Huang, Xinkai Song, Yifan Hao, Jie Zhang, Tian Zhi, Yongwei Zhao, Zidong Du, Xing Hu, Qi Guo, Tianshi Chen

― 6 min ler


LLMs no Dispositivo: UmaLLMs no Dispositivo: UmaNova Eramóveis.desempenho de LLM em dispositivosNova arquitetura de chip transforma o
Índice

Os Modelos de Linguagem Grande (LLMs) viraram uma parte importante de como a gente interage com a tecnologia hoje em dia. Esses modelos conseguem fazer várias tarefas, desde responder perguntas até gerar textos que parecem escritos por humanos. As habilidades deles parecem quase mágicas, mudando a forma como pensamos sobre trabalho e produtividade. Mas usar esses modelos poderosos traz desafios, especialmente quando tentamos rodá-los em dispositivos menores como smartphones ou robôs.

A Necessidade de Inferência no Dispositivo

Rodar LLMs em dispositivos de borda tá cada vez mais em alta. Isso ajuda a proteger a privacidade do usuário e aproveita melhor os recursos da rede. Mas rolar LLMs nesses dispositivos ainda é complicado. Um dos principais problemas é a necessidade de muita memória e banda. Como esses modelos são bem grandes, eles ocupam muito espaço, o que dificulta colocar eles em dispositivos com recursos limitados.

Apresentando uma Nova Arquitetura

Pra resolver esses problemas, foi criada uma nova arquitetura híbrida. Essa arquitetura inclui um chip feito especificamente pra juntar uma Unidade de Processamento Neural (NPU) e um chip NAND flash dedicado. Essa combinação permite processar LLMs diretamente nos dispositivos, sem precisar enviar dados de ida e volta pra nuvem, que pode ser lenta e insegura.

O novo sistema aproveita os pontos fortes da NPU e do chip flash. A NPU é ótima pra fazer cálculos complexos, enquanto o chip flash oferece o espaço de armazenamento necessário. Esse design minimiza a quantidade de dados que precisa ser movida, o que não só acelera o processamento, mas também reduz o consumo de energia.

O Papel da Memória Flash

A memória flash tem um papel importante nessa nova arquitetura. É um meio de armazenamento que mantém os dados mesmo sem energia, sendo ideal pra dispositivos móveis. A memória flash pode armazenar muita informação em um espaço compacto, o que é perfeito pros LLMs que precisam de uma quantidade significativa de memória.

Nesse caso, o chip flash foi atualizado com novos recursos que permitem fazer alguns cálculos diretamente no chip. Isso reduz a necessidade de mover dados pra lá e pra cá, economizando tempo e energia.

Desafios em Deployar LLMs

Apesar das melhorias, usar LLMs em dispositivos menores ainda traz desafios únicos. Um dos principais problemas é o grande espaço de memória que eles exigem. Por exemplo, rodar certos LLMs pode precisar de mais memória do que o que normalmente está disponível em smartphones. Isso resulta em desempenho lento e alto consumo de energia.

Outro desafio é que os LLMs tendem a operar em um modo "de lote único", o que significa que eles só conseguem processar um conjunto de dados por vez. Isso gera ineficiências porque esses modelos não estão utilizando todas as suas capacidades.

Questões de Memória e Banda

Quando falamos sobre memória e banda, é essencial entender alguns pontos chave:

  • Pegada de Memória: Modelos grandes como o Llama-70B precisam de cerca de 70 GB de memória, que é bem mais do que a maioria dos dispositivos móveis consegue lidar.
  • Demanda por Banda: O processo de mover dados exige banda, e LLMs muitas vezes têm baixa intensidade aritmética, fazendo com que sejam limitados pela memória. Isso significa que eles precisam mover muitos dados pra fazer relativamente poucos cálculos.

Limitações da Descarrega de Flash

Algumas tentativas foram feitas pra usar o armazenamento flash como uma forma de descarregar o processamento da memória principal do sistema. Embora isso possa ajudar, muitas vezes esbarra em limitações devido à banda do armazenamento flash. Por exemplo, se um modelo precisa mover dados do flash pra memória do sistema antes de começar a funcionar, esse processo pode desacelerar tudo.

A Arquitetura Híbrida Baseada em Chiplet

A nova arquitetura baseada em chiplet foi projetada pra superar muitos desses desafios. Aqui tá um resumo de como funciona:

  1. Design: A arquitetura inclui um chip flash dedicado que se conecta diretamente à NPU.
  2. Fluxo de Dados: Essa conexão permite acesso direto à memória flash, permitindo que a NPU faça cálculos sem precisar mover dados de forma desnecessária.
  3. Capacidades de Processamento: A memória flash é melhorada com capacidades de processamento on-die, o que significa que pode fazer alguns cálculos bem onde os dados estão armazenados.

Alcançando Inferência Eficiente de Lote Único

Com a arquitetura baseada em chiplet, agora é possível rodar LLMs de forma eficiente em dispositivos de borda. O design permite velocidades de processamento que são significativamente mais rápidas do que os métodos anteriores. Por exemplo, o novo sistema pode alcançar velocidades de mais de 3,44 tokens por segundo para modelos grandes, que é muito melhor do que o que era possível antes.

Utilizando Correção de Erros On-Die

Um dos problemas significativos com a memória flash é que ela pode ser propensa a erros. Pra manter os LLMs funcionando suavemente, uma unidade de correção de erros on-die foi adicionada. Essa unidade ajuda a garantir que mesmo se houver pequenos erros nos dados, o desempenho e a precisão geral dos LLMs permaneçam intactos.

Contribuições Gerais do Novo Design

A nova arquitetura híbrida traz vários benefícios:

  • Uso Eficiente de Memória: Permite que os grandes modelos rodem diretamente nos dispositivos sem precisar de memória excessiva.
  • Processamento Mais Rápido: Com velocidades melhoradas, os usuários podem ter uma experiência mais responsiva em seus dispositivos.
  • Redução do Consumo de Energia: Ao minimizar o movimento de dados necessário, os custos de energia diminuem, tornando melhor pra dispositivos que funcionam com bateria.

Avaliação de Desempenho

Pra garantir que o novo sistema funcione bem, muitos testes foram feitos. Os resultados indicam que a arquitetura se sai muito melhor do que as estruturas anteriores. A velocidade do processamento de LLM melhorou bastante, e o uso de energia tá bem mais baixo do que os métodos tradicionais.

Conclusão

A mudança pra usar LLMs em dispositivos de borda representa uma nova fronteira na tecnologia. Com avanços no design de chips e na utilização da memória, agora é possível aproveitar modelos poderosos direto nos nossos smartphones e outros dispositivos. Essa evolução não só traz novas capacidades pros usuários, mas também enfrenta desafios relacionados à privacidade e segurança dos dados. À medida que a tecnologia continua a crescer, podemos esperar soluções ainda mais inovadoras que permitam interações tranquilas no nosso dia a dia.

Fonte original

Título: Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inference of 70B LLM

Resumo: Deploying advanced large language models on edge devices, such as smartphones and robotics, is a growing trend that enhances user data privacy and network connectivity resilience while preserving intelligent capabilities. However, such a task exhibits single-batch computing with incredibly low arithmetic intensity, which poses the significant challenges of huge memory footprint and bandwidth demands on limited edge resources. To address these issues, we introduce Cambricon-LLM, a chiplet-based hybrid architecture with NPU and a dedicated NAND flash chip to enable efficient on-device inference of 70B LLMs. Such a hybrid architecture utilizes both the high computing capability of NPU and the data capacity of the NAND flash chip, with the proposed hardware-tiling strategy that minimizes the data movement overhead between NPU and NAND flash chip. Specifically, the NAND flash chip, enhanced by our innovative in-flash computing and on-die ECC techniques, excels at performing precise lightweight on-die processing. Simultaneously, the NPU collaborates with the flash chip for matrix operations and handles special function computations beyond the flash's on-die processing capabilities. Overall, Cambricon-LLM enables the on-device inference of 70B LLMs at a speed of 3.44 token/s, and 7B LLMs at a speed of 36.34 token/s, which is over 22X to 45X faster than existing flash-offloading technologies, showing the potentiality of deploying powerful LLMs in edge devices.

Autores: Zhongkai Yu, Shengwen Liang, Tianyun Ma, Yunke Cai, Ziyuan Nan, Di Huang, Xinkai Song, Yifan Hao, Jie Zhang, Tian Zhi, Yongwei Zhao, Zidong Du, Xing Hu, Qi Guo, Tianshi Chen

Última atualização: 2024-09-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.15654

Fonte PDF: https://arxiv.org/pdf/2409.15654

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes