Avaliando Modelos de Linguagem Grande no Desempenho de GPU

Índice

Fonte original
Ligações de referência

Desde o lançamento do ChatGPT no final de 2022, os grandes Modelos de linguagem (LLMs) têm chamado muita atenção, especialmente na comunidade de código aberto, onde muitos modelos agora estão disponíveis para qualquer um usar. Mas, muita gente não sabe como configurar esses modelos ou como avaliar seu desempenho antes.

Para esclarecer isso, testes foram feitos em um centro de pesquisa em Bordeaux. Este artigo compara o desempenho de diferentes modelos com base no tipo de GPU disponível, focando principalmente em dois modelos: Mistral e LLaMA. Os testes usaram uma biblioteca específica em Python para melhorar o funcionamento desses modelos.

As descobertas dessa análise podem ajudar tanto organizações privadas quanto públicas que querem implantar LLMs a avaliar suas opções com base no hardware. Esse trabalho apoia o uso mais amplo de grandes modelos de linguagem em várias áreas.

Após o ChatGPT ser disponibilizado, muitas empresas do setor privado se movimentaram rapidamente para oferecer serviços baseados nesses modelos. No entanto, treinar e usar esses modelos não é fácil para todo mundo. Isso requer computadores poderosos e dados de alta qualidade. Por exemplo, uma grande empresa de tecnologia recentemente comprou um número considerável de GPUs de alto nível especificamente para treinar seus modelos.

Algumas empresas começaram a perceber o potencial de obter uma vantagem por meio dessa tecnologia, o que pode levar a ter muita influência sobre como esses modelos moldam informações e percepções. Elas agora estão pressionando os governos a regulamentar esses modelos, alegando que existem riscos relacionados ao seu uso indevido. Suas propostas incluem limitar o treinamento com base na capacidade computacional usada ou exigir supervisão governamental dos recursos de GPU.

É importante garantir que a capacidade de usar essas ferramentas não fique apenas nas mãos de algumas empresas poderosas. Essas empresas podem direcionar os preconceitos de seus modelos de maneiras que podem impactar a opinião pública. Tornar esses modelos mais transparentes, incluindo o compartilhamento de dados e pesos dos modelos, é crucial para permitir verificações independentes sobre sua confiabilidade e segurança. Embora muitas empresas resistam a essa ideia, algumas, como Meta e Mistral, estão investindo em modelos de pesos abertos, compartilhando versões modificadas de seus modelos gratuitamente.

Esses esforços significam que uma variedade de grupos, tanto públicos quanto privados, agora pode usar modelos poderosos enquanto mantém o controle sobre seus próprios dados e evita uma situação onde muito poder fique com uma única entidade. No entanto, só porque esses modelos estão disponíveis, não significa que todo mundo consiga usá-los facilmente. Implantá-los, especialmente para um grande número de usuários, continua sendo uma tarefa complexa. Pode ser simples configurar um modelo para um usuário, mas escalar para muitos usuários ao mesmo tempo é bem mais complicado.

Um dos principais objetivos da pesquisa foi investigar preocupações de segurança e confidencialidade que vêm com o uso de modelos de linguagem proprietários, como o ChatGPT, por estudantes e pesquisadores da instituição. Muitos estudantes estão recorrendo a essas ferramentas para tarefas como escrever, programar, revisar textos ou brainstorm.

A preocupação com o uso dessas soluções proprietárias é que elas nem sempre protegem a privacidade, e as empresas podem usar os dados para ganhos comerciais ou até espionagem industrial. Isso é uma questão significativa para centros de pesquisa, como o de Bordeaux, que precisam garantir que suas pesquisas permaneçam confidenciais, especialmente porque competem com empresas que oferecem essas soluções proprietárias.

Como resultado, é vital para instituições de pesquisa encontrarem soluções alternativas para manter o controle sobre suas ferramentas digitais. Além disso, à medida que essa tecnologia continua a ganhar importância, mais pesquisadores e estudantes estão ansiosos para trabalhar com LLMs. Por exemplo, usar modelos para interagir com dados é uma prática comum em empresas e poderia ser um serviço interessante a oferecer a estudantes e pesquisadores.

Para implantar um LLM em uma GPU, é necessário ter certos conhecimentos em desenvolvimento de software, como estar familiarizado com Linux e Python. Embora seja útil saber como os Transformers funcionam, não é um requisito. As habilidades necessárias incluem atualizar software, instalar Python e decidir sobre o modelo certo para uma necessidade específica.

Os testes foram realizados em um servidor de computação específico que tinha dois tipos de GPUs: NVIDIA V100 e NVIDIA A100. A biblioteca em Python usada para otimizar os modelos requer certos softwares a serem instalados previamente.

Uma das vantagens da biblioteca escolhida é que ela permite processar várias solicitações ao mesmo tempo sem fila de espera, o que ajuda a acelerar as coisas. No entanto, dependendo do hardware usado, outras opções podem funcionar melhor. Por exemplo, outra ferramenta oferece um bom desempenho com GPUs NVIDIA, e outra funciona bem em certos Macs.

Alguns modelos são bem grandes, tornando difícil carregá-los no hardware disponível devido a limitações. Uma maneira eficaz de lidar com isso é reduzindo a precisão dos pesos do modelo, o que significa armazená-los em menos bits. Essa leve perda de precisão é gerenciável e permite um uso mais eficiente dos recursos de hardware.

Nesta pesquisa, o objetivo era descobrir o número máximo de requisições que um servidor com diferentes tipos de GPUs poderia lidar ao mesmo tempo, dependendo do modelo usado. Os testes envolveram aumentar gradualmente as requisições e tamanhos dos prompts até alcançar o limite. Para cada requisição, o tempo levado para produzir um número específico de tokens foi registrado, junto com medições de uso de memória e velocidade.

O foco foi principalmente em modelos da Mistral devido à sua variedade, popularidade e desempenho, especialmente em idiomas europeus como o francês. Além disso, sua arquitetura permite economizar recursos computacionais usando apenas uma parte do modelo de cada vez, o que também reduz o consumo de energia.

Eles também incluíram um modelo da Meta que tem um desempenho muito bom e oferece um bom equilíbrio entre tamanho e desempenho.

Vários modelos foram testados, e os resultados mostraram que, à medida que o tamanho do contexto aumentava, o tempo para gerar tokens também aumentava, o que é esperado devido à complexidade envolvida. Embora o tempo que leva para responder a solicitações não dobre simplesmente quando mais solicitações são adicionadas, ele se torna menos eficiente quando as solicitações excedem um determinado tamanho.

Mesmo que o custo das GPUs possa ser significativo, ainda é possível rodar uma alternativa local a soluções proprietárias como o ChatGPT sem precisar de uma quantidade esmagadora de recursos. Com apenas algumas GPUs de alto desempenho, é viável operar grandes modelos de forma eficaz, que mostraram ser sérios concorrentes em relação às opções proprietárias.

Modelos menores também podem ser hospedados e podem alcançar velocidades impressionantes, especialmente quando as solicitações são tratadas simultaneamente. No geral, os dados gerados demonstraram que modelos maiores podem lidar bem com muitas solicitações, enquanto modelos menores ainda podem gerar resultados impressionantes.

Este artigo ofereceu uma visão comparativa de vários grandes modelos de linguagem com base no hardware disponível. Os resultados indicam que modelos como Mistral e LLaMa podem ser usados de forma eficaz em tipos específicos de GPUs, oferecendo bom desempenho em comparação com serviços proprietários.

Essas conclusões são importantes tanto para os acadêmicos quanto para os profissionais da indústria, fornecendo insights sobre quais recursos são necessários para implantar LLMs de maneira eficaz. Elas enfatizam a necessidade de transparência e controle sobre as ferramentas digitais, permitindo que diferentes organizações usem modelos de código aberto sem depender de sistemas proprietários.

Incentivar a implantação de LLMs, especialmente com modelos de código aberto, é vital para reduzir a dependência e avançar em direção a um melhor controle sobre os dados.

Avaliando Modelos de Linguagem Grande no Desempenho de GPU

Um estudo comparando os LLMs Mistral e LLaMa em diferentes GPUs.

Ligações de referência

Tópicos referenciados