Investigando a Esparsidade em Redes Neurais Recorrentes

Essa pesquisa estuda o impacto da poda e de estruturas aleatórias no desempenho de RNN.

Índice

Contexto sobre Redes Neurais
Questões de Pesquisa
Abordagem Proposta
Experimento 1: Investigando o Pruning de Pesos
Experimento 2: Analisando Redes Estruturadas Aleatoriamente
Experimento 3: Predição de Desempenho
Trabalhos Relacionados
Contexto Técnico
Funções de Ativação Não Lineares
Retropropagação
Retropropagação ao Longo do Tempo
Memória de Longo Prazo (LSTM)
Unidade Gated Recurrent (GRU)
Técnicas de Pruning
Pruning Baseado em Magnitude
Teoria dos Gráficos
Gráficos Aleatórios
Propriedades dos Gráficos
Redes de Pequeno Mundo
Modelo Barabási–Albert
Conjunto de Dados
Experimentos de Redes Neurais Recorrentes Esparsas
Modelo Base
Modelos Podados
Modelos Estruturados Aleatoriamente
Resultados dos Experimentos
Desempenho do Modelo Base
Desempenho Após Pruning
Desempenho de Modelos Estruturados Aleatoriamente
Predição de Desempenho
Conclusão
Agradecimentos
Fonte original

Nos últimos anos, as redes neurais evoluíram de designs simples para versões mais complexas. Entre elas, as Redes Neurais Convolucionais (CNNs) são top para tarefas que não dependem da ordem dos inputs, tipo reconhecer imagens. Já as Redes Neurais Recorrentes (RNNs) são ideais quando a sequência de inputs é importante, como na tradução de idiomas.

Um jeito comum de turbinar o desempenho das redes neurais é adicionar mais camadas. Mas isso deixa elas mais complicadas e demanda mais tempo e energia pra treinar. Uma forma de lidar com esse problema é introduzindo esparsidade na rede. Isso significa remover de forma seletiva pesos ou conexões que não são cruciais.

Pruning é um método pra deixar uma rede neural esparsa, cortando pesos que ficam abaixo de um certo valor. Isso permite que a rede continue performando bem enquanto usa menos recursos. Outros métodos envolvem criar estruturas aleatórias que podem ser adicionadas à rede. Enquanto muitos pesquisadores estudaram pruning em CNNs, tem bem menos trabalho sobre isso em RNNs. Essa tese foca em como o pruning e as estruturas aleatórias afetam o desempenho das RNNs.

Primeiro, vamos ver o que pruning significa pra RNNs. Vamos examinar o impacto no desempenho e o tempo de treinamento necessário pra recuperar a precisão depois do pruning. Depois, vamos explorar a criação e o treinamento de Redes Neurais Recorrentes Esparsas (Sparse-RNNs) e como o desempenho delas se relaciona com as propriedades das estruturas aleatórias usadas. Vamos fazer esses experimentos em vários tipos de RNNs, incluindo as que usam as funções não lineares Tanh e ReLU, além das Unidades Gated Recurrent Units (GRUs) e redes de Memória de Longo Prazo (LSTMs). Por fim, vamos discutir os resultados desses experimentos.

Muita gente me apoiou e incentivou durante meus estudos de Mestrado, e quero expressar minha gratidão. Especialmente, quero agradecer o Julian Stier, meu orientador de tese, pela orientação valiosa e pelo incentivo pra pensar além das minhas questões iniciais de pesquisa. O retorno dele me ajudou a finalizar meu trabalho a tempo.

Quero também agradecer meus supervisores de tese pelos comentários que me ajudaram a aprimorar minha pesquisa. Além disso, fiz amizades em Passau que tornaram essa cidade como se fosse minha segunda casa. Aprendi que amizade verdadeira não tem fronteiras.

Por último, sou muito grato aos meus pais e à minha irmã pelo apoio inabalável deles. Eles garantiram que eu tivesse a melhor educação possível. A crença que eles têm em mim e os sacrifícios deles me permitiram continuar meu Mestrado na Alemanha.

Contexto sobre Redes Neurais

Uma rede neural, especialmente uma Rede Neural Artificial (ANN), imita o funcionamento do cérebro humano. Após milhões de anos de evolução, nossos cérebros desenvolveram a habilidade de interpretar e avaliar o mundo ao nosso redor rapidamente. Por exemplo, quando olhamos para dígitos escritos à mão, nossos cérebros conseguem reconhecê-los quase instantaneamente por causa da rede de neurônios que temos. Em comparação, criar programas de computador pra identificar padrões semelhantes é complicado porque existem muitas exceções e regras específicas a seguir.

As redes neurais abordam esse problema aprendendo regras a partir de grandes conjuntos de dados. Por exemplo, pra treinar uma rede neural pra reconhecer dígitos escritos à mão, é necessário um grande conjunto de dados com diferentes estilos desses dígitos.

As redes neurais, junto com suas variações, se mostraram eficazes em diversas áreas, incluindo reconhecimento de imagem, tradução automática e sistemas de recomendação. Apesar do desempenho incrível, as redes neurais podem ser complexas e exigir uma quantidade significativa de memória.

As Redes Neurais Esparsas oferecem uma solução ao tornar as redes neurais mais simples e eficientes em termos de memória. A esparsidade nessas redes pode envolver a eliminação de pesos, uso de conexões de salto ou geração de arquiteturas aleatórias baseadas em gráficos. Isso pode reduzir significativamente o tamanho da rede com pouca ou nenhuma perda de desempenho.

Como mencionado antes, redes neurais profundas geralmente têm um desempenho melhor, mas vêm acompanhadas de uma complexidade e demandas de memória maiores. A esparsidade pode ajudar a manter o desempenho enquanto resolve esses problemas. Muitos pesquisadores se concentraram na esparsidade em redes neurais tradicionais e CNNs, mas isso ainda é relativamente inexplorado em RNNs, que podem ser mais difíceis de treinar devido à sua natureza.

Questões de Pesquisa

O objetivo dessa tese é estudar como estruturas esparsas afetam o desempenho de RNNs, especialmente as variantes de Memória de Longo Prazo e Unidades Gated Recurrent. Pra isso, formulamos várias questões de pesquisa:

Que efeito o pruning de pesos tem na precisão de uma rede recorrente?
Quanto de pruning de pesos pode ser feito sem causar uma queda significativa no desempenho?
Quantos epochs de retrain são necessários pra recuperar a precisão depois que uma certa porcentagem de pesos é podada?
Como o desempenho de uma rede recorrente estruturada aleatoriamente se relaciona com as propriedades gráficas de sua estrutura?
O desempenho de uma rede recorrente estruturada aleatoriamente pode ser previsto usando propriedades de seu gráfico base aleatório?

Vamos responder a essas perguntas para quatro tipos de RNNs: RNN com não linearidade Tanh, RNN com não linearidade ReLU, LSTM e GRU.

Abordagem Proposta

Pra explorar os efeitos das estruturas esparsas nas RNNs, delineamos uma série de três experimentos:

Experimento 1: Investigando o Pruning de Pesos

Nesse experimento, vamos podar os pesos tanto das conexões de input-para-hidden quanto de hidden-para-hidden, fazendo isso simultaneamente e individualmente. O processo é o seguinte: treinamos uma rede recorrente em um conjunto de dados por um número determinado de epochs. Após o treinamento, vamos recuperar os pesos aprendidos, podar uma porcentagem dos pesos e então retrainar o modelo pra avaliar quantos epochs são necessários pra recuperar a precisão.

Experimento 2: Analisando Redes Estruturadas Aleatoriamente

Nesse experimento, vamos gerar estruturas aleatórias com conexões recorrentes pra criar Sparse RNNs. Vamos treinar essas Sparse RNNs e examinar a relação entre desempenho e as propriedades gráficas da estrutura subjacente.

Experimento 3: Predição de Desempenho

Após treinar nossas Sparse RNNs, vamos treinar três modelos de regressão diferentes baseados nas propriedades gráficas e sua precisão correspondente. Vamos relatar um valor R-quadrado pra cada tipo de RNN e modelo de regressão.

Todas as três abordagens serão descritas em maior detalhe nos capítulos seguintes.

Trabalhos Relacionados

Alguns pesquisadores estudaram pruning em RNNs nas últimas décadas. Até onde sabemos, só um artigo discute a geração de Redes Neurais Esparsas a partir de gráficos aleatórios. Abaixo, resumimos pesquisas relevantes nessa área.

Em 1994, pesquisadores publicaram uma das primeiras técnicas de pruning para RNNs. A abordagem deles seguiu um método de treinar, podar e retrainar. Eles treinaram uma rede grande em um conjunto de dados de gramática, depois podaram e retrainaram até alcançar um desempenho satisfatório. Os autores concluíram que o algoritmo deles melhorava efetivamente a performance de generalização.

Em 2017, outro estudo propôs uma Rede Neural Recorrente Auto-Organizadora (RSONN) que utilizava um Algoritmo Adaptativo de Crescimento e Pruning (AGPA) pra auto-organizar a estrutura das RNNs. Os autores relataram uma simplificação bem-sucedida da rede com desempenho melhor que os modelos existentes.

Em um projeto separado naquele ano, pesquisadores aplicaram pruning nos pesos durante o treinamento inicial da rede, observando que os parâmetros da rede podiam ser esparsos e ainda assim manter precisão próxima à da rede densa original.

Mais tarde, em 2017, outra equipe apresentou uma técnica de pruning em bloco que poderia zerar grupos de pesos durante a fase de treinamento de redes recorrentes. Os experimentos deles indicaram uma efetividade de blocos esparsos em RNNs.

À medida que a pesquisa continuava, em 2019, um grupo da Universidade de Passau buscou prever o desempenho de CNNs usando suas propriedades estruturais. Eles criaram Redes Neurais Esparsas inserindo gráficos em ANNs. Essa abordagem informará nossa geração de Sparse RNNs.

Contexto Técnico

Antes de mergulharmos nos detalhes sobre pruning e estruturas aleatórias, é essencial entender como diferentes tipos de RNN operam. Esta seção explicará RNNs, LSTMs e GRUs.

Pra entender RNNs, precisamos primeiro olhar como um bloco básico de redes neurais, o perceptron, funciona.

Um perceptron é uma rede neural de camada única que funciona como um classificador linear. Ele aceita múltiplos inputs e retorna uma saída única. Um perceptron básico é composto por inputs, pesos, uma soma ponderada e uma função de ativação.

Funções de Ativação Não Lineares

As redes neurais frequentemente precisam de funções não lineares, pois funções lineares podem não capturar padrões complexos. As funções de ativação mais comuns incluem ReLU, Sigmoid e Tanh.

A Unidade Linear Retificada (ReLU) fornece saída com base se o input é positivo ou negativo. A função Sigmoid mapeia inputs para um intervalo entre 0 e 1, comumente usada em redes tradicionais. Tanh, ou tangente hiperbólica, varia entre -1 e 1 e oferece um desempenho melhor que a função Sigmoid.

Retropropagação

O objetivo de uma rede neural é minimizar erros. Pra isso, utilizamos um processo chamado retropropagação, que calcula o gradiente de uma função de erro e atualiza os pesos de acordo.

As Redes Neurais Recorrentes incorporam conexões de feedback, o que significa que as saídas de etapas anteriores podem impactar os inputs futuros. Essa estrutura é essencial pra tarefas onde a ordem dos dados importa.

Retropropagação ao Longo do Tempo

As RNNs requerem uma versão modificada da retropropagação chamada retropropagação ao longo do tempo (BPTT), que considera as dependências ao longo dos passos de tempo. O erro de etapas de tempo posteriores é propagado de volta pela rede, garantindo que todas as contribuições à saída atual sejam consideradas.

Memória de Longo Prazo (LSTM)

As LSTMs ajudam a resolver problemas relacionados a gradientes que desaparecem, introduzindo portas que controlam o fluxo de informação pela rede. Essas portas permitem que as LSTMs aprendam dependências de longo prazo de forma eficaz.

Unidade Gated Recurrent (GRU)

Semelhante às LSTMs, as GRUs usam mecanismos de portas pra controlar o fluxo de informações, mas com uma arquitetura mais simples. Elas também conseguem aprender dependências de longo prazo enquanto são computacionalmente eficientes.

Nesta tese, vamos trabalhar com RNNs que usam não linearidades Tanh e ReLU, LSTMs e GRUs por causa do uso generalizado e das vantagens que oferecem.

Técnicas de Pruning

Como mencionado antes, uma técnica comum pra melhorar a eficiência de grandes redes neurais é o pruning. Esse processo envolve remover parâmetros de peso menos importantes, tentando manter o desempenho do modelo.

Pruning Baseado em Magnitude

O pruning baseado em magnitude foca no valor absoluto dos pesos, identificando os menos significativos pra remoção. Estudos mostraram que esse método pode levar a reduções substanciais no tamanho do modelo sem sacrificar a precisão.

Teoria dos Gráficos

A teoria dos gráficos estuda redes de nós interconectados. Nesta pesquisa, vamos explorar dois tipos de gráficos aleatórios com características de mundo pequeno: modelos de Watts–Strogatz e Barabási–Albert.

Gráficos Aleatórios

Gráficos aleatórios têm arestas distribuídas aleatoriamente com base em certas medidas de probabilidade. Esses gráficos podem representar redes complexas onde modelar cada detalhe não é possível.

Propriedades dos Gráficos

Vamos examinar várias propriedades dos gráficos, incluindo o número de nós, arestas e sua disposição. Essas propriedades podem ajudar a fornecer insights sobre o desempenho de redes neurais construídas a partir desses gráficos.

Redes de Pequeno Mundo

As Redes de Pequeno Mundo têm uma estrutura única que permite caminhos mais curtos entre os nós. Esse recurso é essencial pra certas aplicações.

Modelo Barabási–Albert

O modelo Barabási–Albert gera Redes Escaláveis, onde as conexões entre nós seguem uma lei de potência. Esse modelo demonstra como as redes crescem ao longo do tempo.

Conjunto de Dados

Nossos experimentos usarão um conjunto de dados composto por sequências Reber, que são strings formadas a partir de um conjunto específico de caracteres. Essas strings seguem regras específicas e nosso objetivo é classificá-las com precisão.

Experimentos de Redes Neurais Recorrentes Esparsas

Nos capítulos seguintes, detalharemos os experimentos focando no desempenho do modelo base e como o desempenho muda após aplicar a técnica de pruning e embutir estruturas aleatórias.

Modelo Base

Nosso modelo base é composto por camadas recorrentes, uma camada linear e uma camada de embedding pra processar dados de entrada de forma eficaz. Esse modelo servirá como base pra avaliar a eficácia de diferentes métodos de esparsidade.

Modelos Podados

Vamos avaliar o desempenho do modelo original e como ele muda depois de podar pesos das conexões de input-para-hidden e hidden-para-hidden. Cada variante da RNN será testada minuciosamente.

Modelos Estruturados Aleatoriamente

Vamos também gerar estruturas aleatórias para RNNs e examinar seu desempenho. Esses modelos ajudarão a esclarecer a relação entre propriedades gráficas e desempenho da rede.

Resultados dos Experimentos

Vamos apresentar os resultados dos nossos experimentos, começando com o desempenho do modelo base e, em seguida, passando para os resultados das RNNs podadas e estruturadas aleatoriamente.

Desempenho do Modelo Base

Através dos nossos experimentos, conseguimos taxas de precisão altas em diferentes modelos de RNN, indicando sua eficácia.

Desempenho Após Pruning

Nossas descobertas indicam que o pruning pode reduzir a complexidade das RNNs mantendo o desempenho. Cada modelo apresentou um limite diferente para o pruning, mas em muitos casos, conseguimos podar uma porcentagem significativa sem perder precisão.

Desempenho de Modelos Estruturados Aleatoriamente

A avaliação de desempenho dos modelos estruturados aleatoriamente revelará insights valiosos sobre sua eficácia e como as propriedades gráficas influenciam os resultados.

Predição de Desempenho

Por fim, vamos resumir os resultados de predição de desempenho, detalhando quão precisamente podemos prever o desempenho de uma RNN com base em suas propriedades gráficas.

Conclusão

O principal objetivo desta tese é investigar os efeitos da esparsidade em RNNs. Exploramos dois métodos: pruning e geração de estruturas aleatórias. Os resultados confirmaram que é viável um pruning substancial de pesos enquanto se retém o desempenho. Além disso, as estruturas aleatórias mostraram potenciais relações com as métricas de desempenho.

Agradecimentos

Quero expressar minha sincera gratidão a todos que me apoiaram durante minha pesquisa. Seu incentivo influenciou muito meu trabalho.

Investigando a Esparsidade em Redes Neurais Recorrentes

Contexto sobre Redes Neurais

Questões de Pesquisa

Abordagem Proposta

Experimento 1: Investigando o Pruning de Pesos

Experimento 2: Analisando Redes Estruturadas Aleatoriamente

Experimento 3: Predição de Desempenho

Trabalhos Relacionados

Contexto Técnico

Funções de Ativação Não Lineares

Retropropagação

Retropropagação ao Longo do Tempo

Memória de Longo Prazo (LSTM)

Unidade Gated Recurrent (GRU)

Técnicas de Pruning

Pruning Baseado em Magnitude

Teoria dos Gráficos

Gráficos Aleatórios

Propriedades dos Gráficos

Redes de Pequeno Mundo

Modelo Barabási–Albert

Conjunto de Dados

Experimentos de Redes Neurais Recorrentes Esparsas

Modelo Base

Modelos Podados

Modelos Estruturados Aleatoriamente

Resultados dos Experimentos

Desempenho do Modelo Base

Desempenho Após Pruning

Desempenho de Modelos Estruturados Aleatoriamente

Predição de Desempenho

Conclusão

Agradecimentos

Tópicos referenciados

Artigos semelhantes

Investigando a Esparsidade em Redes Neurais Recorrentes

#Contexto sobre Redes Neurais

#Questões de Pesquisa

#Abordagem Proposta

#Experimento 1: Investigando o Pruning de Pesos

#Experimento 2: Analisando Redes Estruturadas Aleatoriamente

#Experimento 3: Predição de Desempenho

#Trabalhos Relacionados

#Contexto Técnico

#Funções de Ativação Não Lineares

#Retropropagação

#Retropropagação ao Longo do Tempo

#Memória de Longo Prazo (LSTM)

#Unidade Gated Recurrent (GRU)

#Técnicas de Pruning

#Pruning Baseado em Magnitude

#Teoria dos Gráficos

#Gráficos Aleatórios

#Propriedades dos Gráficos

#Redes de Pequeno Mundo

#Modelo Barabási–Albert

#Conjunto de Dados

#Experimentos de Redes Neurais Recorrentes Esparsas

#Modelo Base

#Modelos Podados

#Modelos Estruturados Aleatoriamente

#Resultados dos Experimentos

#Desempenho do Modelo Base

#Desempenho Após Pruning

#Desempenho de Modelos Estruturados Aleatoriamente

#Predição de Desempenho

#Conclusão

#Agradecimentos

Tópicos referenciados

Artigos semelhantes

Contexto sobre Redes Neurais

Questões de Pesquisa

Abordagem Proposta

Experimento 1: Investigando o Pruning de Pesos

Experimento 2: Analisando Redes Estruturadas Aleatoriamente

Experimento 3: Predição de Desempenho

Trabalhos Relacionados

Contexto Técnico

Funções de Ativação Não Lineares

Retropropagação

Retropropagação ao Longo do Tempo

Memória de Longo Prazo (LSTM)

Unidade Gated Recurrent (GRU)

Técnicas de Pruning

Pruning Baseado em Magnitude

Teoria dos Gráficos

Gráficos Aleatórios

Propriedades dos Gráficos

Redes de Pequeno Mundo

Modelo Barabási–Albert

Conjunto de Dados

Experimentos de Redes Neurais Recorrentes Esparsas

Modelo Base

Modelos Podados

Modelos Estruturados Aleatoriamente

Resultados dos Experimentos

Desempenho do Modelo Base

Desempenho Após Pruning

Desempenho de Modelos Estruturados Aleatoriamente

Predição de Desempenho

Conclusão

Agradecimentos