Aprimorando a Segurança da Marca com Ferramentas de Detecção de Toxicidade
A pesquisa tem como objetivo melhorar a segurança da marca, ampliando os métodos de detecção de toxicidade.
― 7 min ler
Índice
- Entendendo a Segurança da Marca
- O Desafio dos Conjuntos de dados Atuais
- Expandindo a Pesquisa
- Trabalhos Relacionados
- O Papel da Amostragem Ponderada
- Conjuntos de Dados Usados Neste Estudo
- Metodologia
- Resultados
- Observações do Conjunto de Dados Privado
- Limitações e Trabalhos Futuros
- Impacto Social
- Conclusão
- Fonte original
- Ligações de referência
O aumento do conteúdo gerado por usuários nas redes sociais levou a uma necessidade crescente por sistemas que verifiquem e gerenciem automaticamente o conteúdo. Vários ferramentas foram desenvolvidas para identificar discursos de ódio e comentários prejudiciais. Este trabalho tem como objetivo expandir essas ferramentas para que elas também protejam as marcas, garantindo que os anúncios não apareçam em locais inadequados. A segurança da marca vai além de apenas identificar conteúdo tóxico; também considera outros materiais prejudiciais que podem afetar a imagem de uma empresa.
Entendendo a Segurança da Marca
A segurança da marca é sobre garantir que os anúncios sejam mostrados em contextos adequados. Isso envolve reconhecer situações onde um anúncio pode estar ligado a conteúdo negativo, o que pode prejudicar a reputação da marca. Embora discursos de ódio e Comentários Tóxicos façam parte disso, também há outras questões a serem consideradas, como spam ou atividades ilegais. A falta de pesquisa e métodos atualizados nessa área destaca uma lacuna que precisa ser preenchida.
O Desafio dos Conjuntos de dados Atuais
Os conjuntos de dados atuais usados para detectar comentários tóxicos geralmente utilizam diferentes critérios para rotulagem. Isso significa que, quando os modelos são testados em novos tipos de Discurso de ódio, eles não se saem bem. As diferenças em como os textos são rotulados podem afetar os resultados desses modelos. Simplesmente coletar mais dados da área específica de segurança da marca não é sempre possível, já que dados de qualidade são frequentemente limitados.
Expandindo a Pesquisa
Este estudo analisa como os conjuntos de dados existentes para identificar comentários tóxicos podem ser aplicados à segurança da marca. Acreditamos que um conjunto de dados especializado focado em segurança da marca é necessário. Para testar essa ideia, usamos conjuntos de dados comumente disponíveis que detectam toxicidade e os combinamos para ver como funcionam para segurança da marca. Também exploramos diferentes maneiras de amostrar os dados para melhorar nossos resultados.
Trabalhos Relacionados
Houve muitos estudos sobre a detecção de toxicidade em vários tipos de textos. Esses estudos geralmente se concentram em diferentes culturas, idiomas ou regiões. Algumas pesquisas mostraram que remover preconceitos dos dados de treinamento ajuda a melhorar o desempenho do modelo. Outros estudos combinaram múltiplos conjuntos de dados em um único processo de treinamento para criar melhores modelos de identificação de discursos de ódio.
O Papel da Amostragem Ponderada
Um problema com os conjuntos de dados atuais é que eles geralmente têm um desequilíbrio nos tipos de comentários incluídos. Alguns comentários podem ser prejudiciais, enquanto muitos não são. Pesquisas anteriores indicam que ajustar como as amostras são escolhidas pode ajudar a melhorar a classificação de textos e imagens. Neste estudo, implementamos diferentes métodos de amostragem ponderada para ver como eles afetam nossos resultados.
Conjuntos de Dados Usados Neste Estudo
Para nossos experimentos, focamos em conjuntos de dados que são fáceis de acessar e usar. No entanto, esses conjuntos de dados têm vários métodos de rotulagem e podem ser desafiadores de trabalhar. Apresentamos as estatísticas sobre os conjuntos de dados, incluindo o número de exemplos de treinamento e teste, o comprimento médio dos textos e o número de rótulos positivos.
Os conjuntos de dados que usamos incluem:
- Um conjunto de dados focado em identificar discursos de ódio coletados de redes sociais.
- Um conjunto de dados multilingue de identificação de linguagem ofensiva criado para uma tarefa específica.
- Um conjunto de dados de desafio de classificação de toxicidade retirado de comentários da Wikipedia.
- Um conjunto de dados privado extraído de uma aplicação do mundo real que modera conteúdo para segurança da marca.
Metodologia
Treinamos nossos modelos usando os conjuntos de dados mencionados e criamos dois ambientes diferentes: um onde treinamos em um único conjunto de dados e outro onde juntamos todos os conjuntos de dados disponíveis. Também selecionamos aleatoriamente uma parte dos conjuntos de dados para validação.
Analisamos como nossos modelos se saem em diferentes conjuntos de teste. No nosso caso, usamos um modelo pré-treinado e o ajustamos para nossas necessidades específicas. Cada modelo passa por várias rodadas de treinamento, e relatamos os resultados médios dessas rodadas.
Estratégias de Amostragem Ponderada
Dada a desproporção entre os conjuntos de dados, usamos várias técnicas de amostragem durante o treinamento. Avaliamos como essas técnicas afetam nossos resultados. Nossas principais estratégias de amostragem incluem amostragem igual de todas as classes, amostragem igual de cada conjunto de dados e uma combinação de ambas.
Resultados
Nossos resultados mostram que os modelos tendem a se sair melhor em seus respectivos conjuntos de treinamento. No entanto, quando testados em outros conjuntos de dados, geralmente há uma queda perceptível no desempenho. Destacamos a importância de usar amostragem ponderada, pois isso pode melhorar os resultados ligeiramente.
Também examinamos falsos positivos e falsos negativos, que são casos onde o modelo rotulou incorretamente os comentários. Esses erros mostram como diferentes conjuntos de dados podem criar confusão na rotulagem, mesmo quando o texto em si pode se encaixar em diferentes categorias.
Observações do Conjunto de Dados Privado
Nossa hipótese era que certas seções do conjunto de dados privado poderiam corresponder de perto aos conjuntos de dados de detecção de toxicidade. Isso é confirmado pelos melhores resultados obtidos nessas partes específicas. Observamos que discussões sobre questões sociais controversas e conteúdo explícito também parecem estar mais alinhadas com a detecção de comentários tóxicos.
Apesar dessas descobertas, ainda há uma diferença significativa no desempenho ao comparar resultados entre os diferentes conjuntos de teste, enfatizando a necessidade de uma coleta de dados mais direcionada.
Limitações e Trabalhos Futuros
Embora forneçamos insights sobre como preencher a lacuna entre detecção de toxicidade e segurança da marca, reconhecemos as limitações do nosso trabalho. Nosso estudo foca principalmente em dados em inglês, mas há potencial para expandir isso para outros idiomas no futuro. Sugerimos explorar métodos para alinhar ainda mais os conjuntos de dados dedicados à segurança da marca com definições existentes de toxicidade.
Impacto Social
A pesquisa sobre segurança da marca desempenha um papel crucial na gestão de conteúdo prejudicial online, que inclui discursos de ódio e outras atividades ilegais. Ao trabalhar em direção a plataformas digitais mais seguras, podemos ajudar a garantir que as empresas possam proteger suas marcas enquanto promovem um ambiente online mais positivo.
Conclusão
Este estudo serve como um ponto de partida para discussões sobre o uso de métodos de detecção de toxicidade para melhorar a segurança da marca. Identificamos os desafios associados aos conjuntos de dados atuais e a necessidade de melhores ferramentas e métodos nessa área. Nossas descobertas iniciais indicam que, embora haja algumas sobreposições entre essas tarefas, diferenças significativas permanecem. A pesquisa contínua neste campo é importante para evoluir práticas de moderação de conteúdo e proteger marcas no cenário digital.
Título: Beyond Toxic: Toxicity Detection Datasets are Not Enough for Brand Safety
Resumo: The rapid growth in user generated content on social media has resulted in a significant rise in demand for automated content moderation. Various methods and frameworks have been proposed for the tasks of hate speech detection and toxic comment classification. In this work, we combine common datasets to extend these tasks to brand safety. Brand safety aims to protect commercial branding by identifying contexts where advertisements should not appear and covers not only toxicity, but also other potentially harmful content. As these datasets contain different label sets, we approach the overall problem as a binary classification task. We demonstrate the need for building brand safety specific datasets via the application of common toxicity detection datasets to a subset of brand safety and empirically analyze the effects of weighted sampling strategies in text classification.
Autores: Elizaveta Korotkova, Isaac Chung
Última atualização: 2023-03-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.15110
Fonte PDF: https://arxiv.org/pdf/2303.15110
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ojs.aaai.org/index.php/ICWSM/article/view/19340/19112
- https://rosanneliu.com/dlctfs/dlct_211025.pdf
- https://arxiv.org/pdf/1812.03372.pdf
- https://aclanthology.org/2020.semeval-1.188.pdf
- https://github.com/surge-ai/toxicity
- https://www.surgehq.ai/datasets/toxicity-dataset
- https://www.kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge/data
- https://www.kaggle.com/competitions/jigsaw-unintended-bias-in-toxicity-classification/data