O que significa "Atenção Flash"?
Índice
Flash Attention é uma técnica usada em modelos de aprendizado de máquina, principalmente nos chamados Transformers. Esses modelos ajudam os computadores a entender e processar informações de um jeito inteligente, especialmente em tarefas como tradução de linguagem ou reconhecimento de imagem.
Como Funciona
Em muitas situações, as informações que esses modelos analisam não estão completas ou totalmente preenchidas. Isso leva ao que chamamos de matrizes de atenção esparsas. Um método comum chamado Flash Attention trata todas essas matrizes como se estivessem completamente preenchidas, o que pode deixar o processamento mais lento.
Melhorias
Para deixar o Flash Attention melhor, foi introduzido um novo método chamado Binary Block Masking. Esse método permite que o modelo trabalhe de forma mais eficaz com informações incompletas. Ele também inclui duas outras melhorias: uma para situações onde as partes não vazias dos dados estão agrupadas e outra para casos com poucas áreas preenchidas.
Benefícios
Testes mostraram que usar esses novos métodos pode deixar o tempo de processamento até nove vezes mais rápido. Esse aumento de velocidade é importante porque ajuda os modelos a funcionarem melhor e mais rápido ao lidar com dados do mundo real.