Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avanços na Atribuição de Autoria em Bangla

Novos métodos melhoram a identificação de autores em textos em Bangla.

― 7 min ler


Atribuição de autoria emAtribuição de autoria emBangla explicadaidentificação de autores de Bangla.Novo modelo aumenta a eficiência na
Índice

A atribuição de autoria é sobre descobrir quem escreveu um texto. Isso é importante em várias áreas, especialmente com o aumento da comunicação online, onde a galera pode esconder suas identidades. Saber quem é o autor pode ajudar em casos de plágio, problemas de segurança e outras situações onde a identidade do autor importa. Apesar de ter havido um bom progresso em identificar autores em idiomas como inglês e espanhol, o trabalho em Bangla foi limitado. Isso se deve às complexidades únicas da língua Bangla e à falta de grandes conjuntos de dados para treinar modelos.

A Importância da Atribuição de Autoria

Com mais pessoas se comunicando anonimamente na Internet, a atribuição de autoria se tornou cada vez mais significativa. Ajuda a identificar o autor original de mensagens e textos, o que pode proteger contra cyberbullying, falsificação e fraudes. Essa capacidade também é útil em ambientes acadêmicos para garantir a integridade das submissões dos alunos, na aplicação da lei para investigações e no mundo literário para analisar estilos de escrita.

Desafios na Atribuição de Autoria em Bangla

Há vários desafios na atribuição de autoria especificamente para a língua Bangla. Primeiro, Bangla tem um sistema complexo de flexões, o que significa que as palavras podem mudar de forma dependendo do uso na frase. Segundo, muitos autores podem escrever sobre os mesmos tópicos ou usar estruturas semelhantes, tornando difícil identificar estilos individuais. Terceiro, há uma falta de pesquisa substantiva e ferramentas para estudar estilos de escrita em Bangla de forma eficaz.

Os sistemas existentes para atribuição de autoria geralmente dependem de características manuais como comprimento de palavras e sentenças ou frequência de uso de certas palavras. Isso pode ser trabalhoso e nem sempre escala bem quando mais autores são adicionados. O desempenho dos sistemas pode cair significativamente quando há menos amostras de cada autor.

Abordagem Proposta

Para enfrentar os desafios na atribuição de autoria em Bangla, foi desenvolvido um novo método usando um tipo de modelo de aprendizado profundo conhecido como AWD-LSTM, combinado com aprendizado por transferência. Isso significa que um modelo treinado em um grande conjunto de dados pode ser ajustado em um conjunto menor e específico de textos relacionados à atribuição de autoria. Esse método ajuda a melhorar a precisão e eficiência na identificação de autores.

O novo sistema também inclui um conjunto de dados exclusivo da literatura Bangla, contendo amostras de vários autores e milhões de palavras. Esse conjunto de dados visa remediar a escassez de recursos para treinar modelos em Bangla, fornecendo uma estrutura mais robusta para entender estilos de escrita nesta língua.

Entendendo a Tokenização

Tokenização é o processo de dividir o texto em partes menores ou "tokens". No contexto da atribuição de autoria, isso pode ser feito de várias maneiras. Os métodos mais comuns são:

  1. Tokenização a nível de palavra: Isso separa o texto em palavras individuais, facilitando a análise pelos modelos.

  2. Tokenização a sub-palavra: Isso quebra palavras em partes menores, o que ajuda a manter informações linguísticas ao mesmo tempo que permite variações nas formas das palavras.

  3. Tokenização a nível de caractere: Isso divide o texto em seus caracteres individuais. Embora isso possa ser útil para algumas tarefas, pode complicar a análise devido às longas sequências de caracteres que precisam ser processadas.

A pesquisa descobriu que a tokenização a sub-palavra funciona melhor para a atribuição de autoria em Bangla. Isso ajuda a preservar o significado das palavras enquanto as divide o suficiente para considerar variações.

Criação do Conjunto de Dados

Uma das principais contribuições da pesquisa foi a criação de um novo conjunto de dados chamado Conjunto de Dados de Atribuição de Autoria em Bangla. Esse conjunto inclui amostras de texto de uma variedade de autores Bangla, totalizando mais de 17.000 textos e mais de 13 milhões de palavras. Esse conjunto de dados grande e diversificado ajuda a garantir que os modelos possam aprender com uma ampla gama de estilos de escrita, tornando-os mais eficazes na identificação de autores.

Arquitetura do Modelo

O modelo desenvolvido para atribuição de autoria é baseado na arquitetura AWD-LSTM, que é conhecida por sua eficácia em modelagem de linguagem. A arquitetura inclui várias camadas que processam o texto para entender padrões nos estilos de escrita. O modelo primeiro aprende a partir de um grande corpus geral de texto em Bangla e, em seguida, é ajustado no conjunto de dados específico de atribuição de autoria, permitindo que se adapte às características únicas da escrita em Bangla.

Treinamento e Avaliação do Modelo

Treinar um modelo de aprendizado profundo envolve alimentar dados, permitindo que aprenda padrões e, em seguida, testá-lo em dados não vistos para medir seu desempenho. O treinamento usou várias técnicas para melhorar a eficiência e a precisão, incluindo:

  • Taxas de Aprendizado Cíclicas: Essa abordagem ajusta a taxa de aprendizado durante o processo de treinamento, ajudando o modelo a aprender melhor.

  • Taxas de Aprendizado Discriminativas: Diferentes camadas do modelo podem aprender em velocidades diferentes, permitindo que as camadas mais importantes se ajustem rapidamente enquanto preservam informações aprendidas nas camadas iniciais.

  • Descongelamento Gradual: Nessa técnica, as camadas do modelo são treinadas uma de cada vez em vez de todas de uma vez, minimizando o risco de perder informações aprendidas anteriormente.

Resultados e Descobertas

O modelo proposto mostrou uma promessa significativa em identificar autores com precisão. Em testes usando o novo conjunto de dados, o modelo alcançou níveis de desempenho impressionantes, superando muito os métodos anteriores. Notavelmente, manteve uma precisão consistente mesmo com o aumento do número de autores e menos amostras por autor, que é frequentemente uma limitação em sistemas tradicionais.

A pesquisa também comparou o novo método com modelos mais antigos, demonstrando uma melhora clara no desempenho. O novo modelo conseguiu identificar autores de uma maneira que os métodos tradicionais não conseguiam, fornecendo uma ferramenta mais confiável para atribuição de autoria em Bangla.

Direções Futuras

Olhando para o futuro, há várias avenidas para mais pesquisas. Uma área potencial é explorar o uso de diferentes arquiteturas de aprendizado profundo, como Redes Neurais Convolucionais (CNNs), que poderiam complementar os LSTMs para uma melhor detecção de padrões. Além disso, desenvolver modelos de atribuição de autoria multilíngues poderia ampliar o escopo da pesquisa, permitindo comparações e insights entre idiomas.

No geral, o trabalho sobre atribuição de autoria em Bangla representa um passo significativo em direção à compreensão e análise de estilos de escrita. Com a criação de um conjunto de dados robusto, um modelo eficaz e uma compreensão das complexidades da língua, essa pesquisa abre portas para novas aplicações e insights no campo do processamento de linguagem natural.

Conclusão

Em conclusão, a atribuição de autoria é uma tarefa essencial, especialmente no contexto do crescente anonimato encontrado online. A abordagem proposta usando o modelo AWD-LSTM e um conjunto de dados abrangente oferece uma solução para os desafios encontrados na atribuição de autoria em Bangla. Com técnicas de tokenização eficazes e um foco em aprendizado por transferência, essa pesquisa não só melhora a precisão na identificação de autores, mas também enriquece os recursos disponíveis para futuras pesquisas nessa área. Este trabalho se constitui como uma base para maior exploração em aplicações de aprendizado profundo e processamento de linguagem natural, garantindo que as intricacias da escrita em Bangla sejam compreendidas e valorizadas.

Fonte original

Título: Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT

Resumo: Authorship Attribution is the task of creating an appropriate characterization of text that captures the authors' writing style to identify the original author of a given piece of text. With increased anonymity on the internet, this task has become increasingly crucial in various security and plagiarism detection fields. Despite significant advancements in other languages such as English, Spanish, and Chinese, Bangla lacks comprehensive research in this field due to its complex linguistic feature and sentence structure. Moreover, existing systems are not scalable when the number of author increases, and the performance drops for small number of samples per author. In this paper, we propose the use of Average-Stochastic Gradient Descent Weight-Dropped Long Short-Term Memory (AWD-LSTM) architecture and an effective transfer learning approach that addresses the problem of complex linguistic features extraction and scalability for authorship attribution in Bangla Literature (AABL). We analyze the effect of different tokenization, such as word, sub-word, and character level tokenization, and demonstrate the effectiveness of these tokenizations in the proposed model. Moreover, we introduce the publicly available Bangla Authorship Attribution Dataset of 16 authors (BAAD16) containing 17,966 sample texts and 13.4+ million words to solve the standard dataset scarcity problem and release six variations of pre-trained language models for use in any Bangla NLP downstream task. For evaluation, we used our developed BAAD16 dataset as well as other publicly available datasets. Empirically, our proposed model outperformed state-of-the-art models and achieved 99.8% accuracy in the BAAD16 dataset. Furthermore, we showed that the proposed system scales much better even with an increasing number of authors, and performance remains steady despite few training samples.

Autores: Aisha Khatun, Anisur Rahman, Md Saiful Islam, Hemayet Ahmed Chowdhury, Ayesha Tasnim

Última atualização: 2024-03-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.05519

Fonte PDF: https://arxiv.org/pdf/2403.05519

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes