Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Aprimorando a Segurança da Marca com Ferramentas de Detecção de Toxicidade

A pesquisa tem como objetivo melhorar a segurança da marca, ampliando os métodos de detecção de toxicidade.

― 7 min ler


Ferramentas de SegurançaFerramentas de Segurançade Marca e Toxicidadeanúncios de marcas mais seguros online.Pesquisa melhora ferramentas para
Índice

O aumento do conteúdo gerado por usuários nas redes sociais levou a uma necessidade crescente por sistemas que verifiquem e gerenciem automaticamente o conteúdo. Vários ferramentas foram desenvolvidas para identificar discursos de ódio e comentários prejudiciais. Este trabalho tem como objetivo expandir essas ferramentas para que elas também protejam as marcas, garantindo que os anúncios não apareçam em locais inadequados. A segurança da marca vai além de apenas identificar conteúdo tóxico; também considera outros materiais prejudiciais que podem afetar a imagem de uma empresa.

Entendendo a Segurança da Marca

A segurança da marca é sobre garantir que os anúncios sejam mostrados em contextos adequados. Isso envolve reconhecer situações onde um anúncio pode estar ligado a conteúdo negativo, o que pode prejudicar a reputação da marca. Embora discursos de ódio e Comentários Tóxicos façam parte disso, também há outras questões a serem consideradas, como spam ou atividades ilegais. A falta de pesquisa e métodos atualizados nessa área destaca uma lacuna que precisa ser preenchida.

O Desafio dos Conjuntos de dados Atuais

Os conjuntos de dados atuais usados para detectar comentários tóxicos geralmente utilizam diferentes critérios para rotulagem. Isso significa que, quando os modelos são testados em novos tipos de Discurso de ódio, eles não se saem bem. As diferenças em como os textos são rotulados podem afetar os resultados desses modelos. Simplesmente coletar mais dados da área específica de segurança da marca não é sempre possível, já que dados de qualidade são frequentemente limitados.

Expandindo a Pesquisa

Este estudo analisa como os conjuntos de dados existentes para identificar comentários tóxicos podem ser aplicados à segurança da marca. Acreditamos que um conjunto de dados especializado focado em segurança da marca é necessário. Para testar essa ideia, usamos conjuntos de dados comumente disponíveis que detectam toxicidade e os combinamos para ver como funcionam para segurança da marca. Também exploramos diferentes maneiras de amostrar os dados para melhorar nossos resultados.

Trabalhos Relacionados

Houve muitos estudos sobre a detecção de toxicidade em vários tipos de textos. Esses estudos geralmente se concentram em diferentes culturas, idiomas ou regiões. Algumas pesquisas mostraram que remover preconceitos dos dados de treinamento ajuda a melhorar o desempenho do modelo. Outros estudos combinaram múltiplos conjuntos de dados em um único processo de treinamento para criar melhores modelos de identificação de discursos de ódio.

O Papel da Amostragem Ponderada

Um problema com os conjuntos de dados atuais é que eles geralmente têm um desequilíbrio nos tipos de comentários incluídos. Alguns comentários podem ser prejudiciais, enquanto muitos não são. Pesquisas anteriores indicam que ajustar como as amostras são escolhidas pode ajudar a melhorar a classificação de textos e imagens. Neste estudo, implementamos diferentes métodos de amostragem ponderada para ver como eles afetam nossos resultados.

Conjuntos de Dados Usados Neste Estudo

Para nossos experimentos, focamos em conjuntos de dados que são fáceis de acessar e usar. No entanto, esses conjuntos de dados têm vários métodos de rotulagem e podem ser desafiadores de trabalhar. Apresentamos as estatísticas sobre os conjuntos de dados, incluindo o número de exemplos de treinamento e teste, o comprimento médio dos textos e o número de rótulos positivos.

Os conjuntos de dados que usamos incluem:

  1. Um conjunto de dados focado em identificar discursos de ódio coletados de redes sociais.
  2. Um conjunto de dados multilingue de identificação de linguagem ofensiva criado para uma tarefa específica.
  3. Um conjunto de dados de desafio de classificação de toxicidade retirado de comentários da Wikipedia.
  4. Um conjunto de dados privado extraído de uma aplicação do mundo real que modera conteúdo para segurança da marca.

Metodologia

Treinamos nossos modelos usando os conjuntos de dados mencionados e criamos dois ambientes diferentes: um onde treinamos em um único conjunto de dados e outro onde juntamos todos os conjuntos de dados disponíveis. Também selecionamos aleatoriamente uma parte dos conjuntos de dados para validação.

Analisamos como nossos modelos se saem em diferentes conjuntos de teste. No nosso caso, usamos um modelo pré-treinado e o ajustamos para nossas necessidades específicas. Cada modelo passa por várias rodadas de treinamento, e relatamos os resultados médios dessas rodadas.

Estratégias de Amostragem Ponderada

Dada a desproporção entre os conjuntos de dados, usamos várias técnicas de amostragem durante o treinamento. Avaliamos como essas técnicas afetam nossos resultados. Nossas principais estratégias de amostragem incluem amostragem igual de todas as classes, amostragem igual de cada conjunto de dados e uma combinação de ambas.

Resultados

Nossos resultados mostram que os modelos tendem a se sair melhor em seus respectivos conjuntos de treinamento. No entanto, quando testados em outros conjuntos de dados, geralmente há uma queda perceptível no desempenho. Destacamos a importância de usar amostragem ponderada, pois isso pode melhorar os resultados ligeiramente.

Também examinamos falsos positivos e falsos negativos, que são casos onde o modelo rotulou incorretamente os comentários. Esses erros mostram como diferentes conjuntos de dados podem criar confusão na rotulagem, mesmo quando o texto em si pode se encaixar em diferentes categorias.

Observações do Conjunto de Dados Privado

Nossa hipótese era que certas seções do conjunto de dados privado poderiam corresponder de perto aos conjuntos de dados de detecção de toxicidade. Isso é confirmado pelos melhores resultados obtidos nessas partes específicas. Observamos que discussões sobre questões sociais controversas e conteúdo explícito também parecem estar mais alinhadas com a detecção de comentários tóxicos.

Apesar dessas descobertas, ainda há uma diferença significativa no desempenho ao comparar resultados entre os diferentes conjuntos de teste, enfatizando a necessidade de uma coleta de dados mais direcionada.

Limitações e Trabalhos Futuros

Embora forneçamos insights sobre como preencher a lacuna entre detecção de toxicidade e segurança da marca, reconhecemos as limitações do nosso trabalho. Nosso estudo foca principalmente em dados em inglês, mas há potencial para expandir isso para outros idiomas no futuro. Sugerimos explorar métodos para alinhar ainda mais os conjuntos de dados dedicados à segurança da marca com definições existentes de toxicidade.

Impacto Social

A pesquisa sobre segurança da marca desempenha um papel crucial na gestão de conteúdo prejudicial online, que inclui discursos de ódio e outras atividades ilegais. Ao trabalhar em direção a plataformas digitais mais seguras, podemos ajudar a garantir que as empresas possam proteger suas marcas enquanto promovem um ambiente online mais positivo.

Conclusão

Este estudo serve como um ponto de partida para discussões sobre o uso de métodos de detecção de toxicidade para melhorar a segurança da marca. Identificamos os desafios associados aos conjuntos de dados atuais e a necessidade de melhores ferramentas e métodos nessa área. Nossas descobertas iniciais indicam que, embora haja algumas sobreposições entre essas tarefas, diferenças significativas permanecem. A pesquisa contínua neste campo é importante para evoluir práticas de moderação de conteúdo e proteger marcas no cenário digital.

Mais de autores

Artigos semelhantes