Detectando Conteúdo Sensível em Fanfiction

Índice

O que é Conteúdo Desencadeante?
Nossa Abordagem
Abordando o Desequilíbrio de Classe
Validação da Nossa Abordagem
Resultados
Conclusão
Fonte original
Ligações de referência

Fanfiction é uma forma criativa de fãs escreverem suas próprias histórias usando personagens e cenários de obras de ficção já existentes. Esse tipo de escrita ganhou bastante popularidade online. Mas, à medida que a comunidade cresce, preocupações sobre a segurança e o bem-estar dos membros também aumentaram. Um grande problema é a presença de conteúdo desencadeante, que pode ser angustiante ou traumático para alguns leitores. Nossa meta é encontrar maneiras de identificar esse conteúdo desencadeante em histórias de fanfiction.

O que é Conteúdo Desencadeante?

Conteúdo desencadeante se refere a material que pode evocar reações emocionais fortes, às vezes causando angústia ou trauma. Esse tipo de conteúdo pode incluir temas de abuso, violência, questões de saúde mental ou outros tópicos sensíveis. É importante que escritores e leitores de fanfiction tenham sistemas que ajudem a identificar e gerenciar esse tipo de conteúdo, dado a variedade de experiências e emoções que os leitores podem ter.

Nossa Abordagem

No nosso estudo, focamos em detectar gatilhos em textos longos de fanfiction usando Processamento de Linguagem Natural (NLP) e técnicas de aprendizado de máquina. O objetivo era desenvolver um algoritmo que pudesse identificar com precisão várias instâncias de conteúdo desencadeante. Elaboramos um método que envolve dividir documentos longos de fanfiction em seções menores, o que ajuda na melhor análise. Em seguida, ajustamos um tipo específico de modelo de linguagem para melhorar nossa compreensão e classificação desses textos.

Segmentação do Texto

Para facilitar nossa análise, primeiro dividimos histórias longas de fanfiction em segmentos menores de texto. Cada segmento continha 200 palavras, com uma sobreposição de 50 palavras para garantir que capturássemos o contexto. Isso significava que o final de um segmento se sobrepunha ao começo do próximo, ajudando a manter informações importantes que poderiam ser perdidas se cortássemos o texto de forma muito brusca.

Tokenização

Depois de segmentar o texto, seguimos para uma etapa chamada tokenização. É aqui que nosso modelo de linguagem escolhido, um modelo baseado em Transformer chamado RoBERTa, foi ajustado usando os pequenos segmentos que criamos. Tokenização converte o texto em um formato que o modelo consegue trabalhar. Usamos uma versão do modelo RoBERTa que está disponível, ajustando parâmetros como taxa de aprendizado e tamanho do lote para otimizar o treinamento.

Extração de Características

Uma vez que a tokenização estava completa, extraímos embeddings de características de cada segmento. Esses embeddings são coleções de valores numéricos que representam o significado do segmento de texto, permitindo que nosso modelo tome decisões informadas. Olhamos especificamente para embeddings de um token de classificação, que é usado para ajudar a categorizar o conteúdo.

Treinando o Modelo

A próxima etapa na nossa abordagem foi treinar um modelo usando um tipo de rede neural chamada LSTM (Long Short-Term Memory network). Essa rede foi projetada para processar nossas características extraídas e identificar padrões indicativos de conteúdo desencadeante. Usamos uma série de técnicas para otimizar o treinamento e garantir que nosso modelo aprendesse de forma eficaz.

Abordando o Desequilíbrio de Classe

Um dos desafios que enfrentamos foi que certos temas desencadeantes são mais comuns que outros. Por exemplo, conteúdo relacionado à violência pode ser encontrado com mais frequência comparado a tópicos como crueldade contra animais. Isso cria um desequilíbrio em nosso conjunto de dados. Para lidar com isso, ajustamos a importância de diferentes rótulos ao treinar nosso modelo. Ao aumentar o peso dado a temas menos comuns, nosso modelo se tornou melhor em detectá-los.

Validação da Nossa Abordagem

Depois de treinar nosso modelo, precisávamos validar seu desempenho. Comparamos nossos resultados com métodos tradicionais, como usar o BERT, outro modelo de linguagem baseado em Transformer, e um modelo baseado em vetores de documentos TF-IDF combinado com XGBoost, uma técnica de boosting. Nosso modelo demonstrou melhor precisão e eficácia em identificar conteúdo desencadeante em comparação com esses métodos de referência.

Resultados

Nós avaliamos nosso modelo usando uma abordagem de classificação multi-rótulo, onde cada documento de fanfiction poderia ser atribuído a vários rótulos de gatilho. O desempenho do nosso modelo foi medido usando métricas chamadas F1-macro e F1-micro, que ajudam a entender como nosso modelo está se saindo no geral. Nossa abordagem alcançou pontuações mais altas do que outros métodos testados, especialmente na detecção de uma ampla gama de conteúdos desencadeantes.

Desempenho por Classe

Analisamos o quão bem nosso modelo se saiu com diferentes classes de gatilho. Ao aplicar pesos à função de perda durante o treinamento, conseguimos aumentar a sensibilidade do modelo em reconhecer classes de gatilho menos frequentes. Como resultado, o desempenho geral do modelo melhorou significativamente.

Resultados dos Testes

Quando enviamos nosso modelo para testes externos, ele foi avaliado em uma configuração de hardware designada. O processo levou cerca de 150 minutos para ser concluído. Nosso modelo obteve resultados impressionantes, ficando em primeiro lugar na pontuação F1 macro e em segundo na pontuação F1 micro entre todos os participantes da competição.

Conclusão

Este estudo apresenta uma abordagem sistemática para identificar conteúdo desencadeante em fanfiction, empregando técnicas de processamento de linguagem natural e aprendizado de máquina. Ao segmentar documentos longos, ajustar um modelo baseado em Transformer e usar LSTMs para classificação, demonstramos a capacidade do nosso modelo de detectar com precisão múltiplas instâncias de conteúdo desencadeante. Os resultados indicam que nosso método supera modelos tradicionais em precisão e eficácia. Nossas descobertas destacam a importância de desenvolver ainda mais técnicas para melhorar a detecção de conteúdo sensível em textos, especialmente em comunidades dinâmicas e criativas como a de fanfiction.

À medida que as comunidades continuam a crescer e evoluir, garantir a segurança e o bem-estar de seus membros é crucial. As ferramentas e métodos que desenvolvemos serão essenciais para promover um ambiente de apoio onde a criatividade pode florescer sem comprometer a saúde emocional dos participantes. Nossa pesquisa contínua vai se focar em refinar essas técnicas e explorar sua aplicação em várias formas de conteúdo além da fanfiction.

Detectando Conteúdo Sensível em Fanfiction

Desenvolvemos um método pra identificar conteúdo que gatilha emoções em fanfics usando aprendizado de máquina.

O que é Conteúdo Desencadeante?

Nossa Abordagem

Segmentação do Texto

Tokenização

Extração de Características

Treinando o Modelo

Abordando o Desequilíbrio de Classe

Validação da Nossa Abordagem

Resultados

Desempenho por Classe

Resultados dos Testes

Conclusão

Ligações de referência

Tópicos referenciados

Detectando Conteúdo Sensível em Fanfiction

Desenvolvemos um método pra identificar conteúdo que gatilha emoções em fanfics usando aprendizado de máquina.

#O que é Conteúdo Desencadeante?

#Nossa Abordagem

#Segmentação do Texto

#Tokenização

#Extração de Características

#Treinando o Modelo

#Abordando o Desequilíbrio de Classe

#Validação da Nossa Abordagem

#Resultados

#Desempenho por Classe

#Resultados dos Testes

#Conclusão

Ligações de referência

Tópicos referenciados

O que é Conteúdo Desencadeante?

Nossa Abordagem

Segmentação do Texto

Tokenização

Extração de Características

Treinando o Modelo

Abordando o Desequilíbrio de Classe

Validação da Nossa Abordagem

Resultados

Desempenho por Classe

Resultados dos Testes

Conclusão