Detectando Conteúdo Tóxico em Vídeos em Línguas Mistas
Uma nova abordagem para identificar discurso prejudicial em vídeos mixados de Hindi-Inglês.
― 10 min ler
Índice
- O Crescimento do Conteúdo em Vídeo
- A Necessidade de Detecção
- Nossas Contribuições
- Criação do Dataset
- Coleta de Dados
- Anotação de Dados
- Estatísticas do Dataset
- Formulação do Problema
- Estrutura ToxVidLLM
- Módulo de Codificação
- Módulo de Sincronização Modal
- Módulo Multitarefa
- Configuração Experimental
- Modelos de Base
- Descobertas dos Experimentos
- Análise Estatística
- Conclusão e Trabalhos Futuros
- Fonte original
- Ligações de referência
No mundo digital acelerado de hoje, os vídeos se tornaram uma maneira popular de compartilhar informações e se comunicar. No entanto, à medida que mais pessoas criam e compartilham vídeos, o desafio de encontrar conteúdo prejudicial ou tóxico nesses vídeos tá aumentando, especialmente em idiomas que misturam duas ou mais línguas, como o Hindi e o inglês. Apesar de já ter rolado um trabalho significativo pra encontrar conteúdo tóxico em texto, vídeos em idiomas que combinam diferentes línguas ainda não foram tão explorados.
O objetivo desse trabalho é preencher essa lacuna criando um dataset único de vídeos e um sistema pra detectar toxicidade no conteúdo em vídeo. A gente juntou um conjunto de vídeos que inclui conversas em Hindi e inglês misturados e rotulou cuidadosamente cada parte do vídeo pra toxicidade, Severidade e Sentimento. Nossa meta é deixar os espaços online mais seguros ao treinar um sistema que consiga reconhecer e categorizar esse tipo de conteúdo prejudicial.
O Crescimento do Conteúdo em Vídeo
A forma como a gente se comunica mudou muito nos últimos anos, com as redes sociais e plataformas de vídeo permitindo que qualquer um crie e compartilhe informações. Em 2023, estima-se que a maior parte do tráfego da internet seja composta por vídeos. O YouTube virou uma plataforma super importante pra usuários compartilharem informações, com bilhões de horas de vídeo assistidas todos os dias.
Enquanto essa vasta gama de conteúdo pode fornecer insights valiosos e entretenimento, também permite que discursos Tóxicos se espalhem rapidamente. Discurso tóxico pode ser definido como uma linguagem que é rude, desrespeitosa ou irrazoável, muitas vezes levando a discussões acaloradas das quais as pessoas podem querer sair. Tem muitos tópicos cobertos em vídeos, sendo que a maior parte do conteúdo é inofensivo. Porém, alguns vídeos violam as diretrizes da comunidade e promovem ideias prejudiciais. A presença de conteúdo tóxico pode levar a ambientes hostis online e desafios legais para as plataformas que hospedam esse conteúdo.
A Necessidade de Detecção
Os métodos atuais pra detectar conteúdo tóxico têm focado principalmente em texto. A área de detecção de conteúdo em vídeo não está tão desenvolvida. Identificar conteúdo prejudicial em vídeos precisa combinar informações de várias fontes, incluindo partes visuais e de áudio. Os métodos existentes geralmente dependem muito de texto e têm se concentrado principalmente em conteúdo em inglês. No entanto, com mais pessoas usando línguas que misturam diferentes idiomas, há uma maior necessidade de sistemas de detecção que consigam lidar com essas complexidades.
Em países multilíngues como a Índia, é comum que as pessoas misturem Hindi e inglês nas conversas, criando desafios para desenvolver ferramentas de aprendizado de máquina eficazes para a detecção. Embora algumas pesquisas tenham olhado pra detecção de conteúdo tóxico em texto de redes sociais, ainda existe uma grande lacuna em entender como lidar com o mesmo problema em formato de vídeo.
Nossas Contribuições
Esse trabalho tem como objetivo lidar com essas questões desenvolvendo uma nova abordagem para detectar discurso tóxico no conteúdo em vídeo. Vamos criar um dataset que inclui vídeos misturados de Hindi e inglês e uma Estrutura para detectar discurso tóxico, sentimento e níveis de severidade através da análise de diferentes componentes do vídeo.
Criação do Dataset: A gente introduz o ToxCMM, um dataset acessível publicamente que inclui vídeos anotados para discurso tóxico. Ele contém 931 vídeos com 4021 falas que são rotuladas pra toxicidade, sentimento e severidade. Esse dataset foi feito pra ajudar pesquisadores e desenvolvedores a criarem sistemas melhores pra detectar discurso tóxico em línguas misturadas.
Desenvolvimento da Estrutura: A gente desenvolveu o ToxVidLLM, uma estrutura que combina múltiplos métodos de detecção de vídeos tóxicos enquanto também analisa sentimento e severidade. A estrutura consiste em três partes principais: um módulo de codificação que processa diferentes tipos de dados, um módulo pra sincronizar esses dados, e um módulo multitarefa que executa as tarefas de detecção. Usar várias modalidades, incluindo vídeo, áudio e texto, melhora o desempenho da detecção.
Criação do Dataset
Coleta de Dados
Pra montar nosso dataset, focamos no YouTube, uma plataforma popular pra compartilhamento de vídeos. Nosso alvo eram vídeos que misturavam conversas em Hindi e inglês. Usamos a API do YouTube pra coletar dados de web séries indianas e vídeos "roasted". Depois de coletar inicialmente 1023 vídeos, filtramos pra 931 pra garantir que eram apropriados pra nossa pesquisa.
Utilizamos um modelo de reconhecimento de fala pra criar transcrições dos vídeos, melhorando a precisão delas corrigindo manualmente os erros. Cada vídeo foi dividido em clipes menores pra permitir uma anotação mais detalhada.
Anotação de Dados
No nosso processo de anotação, treinamos um grupo de estudantes de graduação que conhecem Hindi e inglês. Nossos anotadores especialistas revisaram o trabalho deles pra garantir consistência e qualidade. Fornecemos amostras de treinamento pra guiar nossos anotadores na categorização de cada fala com base na toxicidade, sentimento e severidade.
No total, estabelecemos categorias claras pra cada fala. A toxicidade é classificada como “tóxica” ou “não tóxica”, enquanto o sentimento é rotulado como "positivo", "negativo" ou "neutro." A severidade é classificada numa escala de "não prejudicial" a "muito prejudicial."
Através desse rigoroso treinamento e processo de revisão, conseguimos altos índices de confiabilidade nas nossas anotações, confirmando a qualidade e confiabilidade do nosso dataset.
Estatísticas do Dataset
O dataset ToxCMM consiste em 4021 falas, com 1697 marcadas como tóxicas e 2324 como não tóxicas. Cada fala tem um comprimento médio de 8.68 palavras e dura cerca de 8.89 segundos. Notavelmente, cerca de 68% das palavras usadas no dataset estão em Hindi, com o resto em inglês.
Formulação do Problema
Nosso principal objetivo é identificar se um vídeo contém conteúdo tóxico e classificar seu sentimento e severidade. Cada vídeo é tratado como uma coleção de quadros, som e uma transcrição em texto. Vamos usar métodos de aprendizado profundo pra criar um modelo capaz de detectar esses três aspectos nos vídeos.
Estrutura ToxVidLLM
Pra melhorar nossa compreensão do processo de detecção, dividimos a estrutura ToxVidLLM em três partes principais:
Módulo de Codificação
A primeira parte da estrutura é o módulo de codificação. Essa seção é responsável por processar dados de áudio, vídeo e texto separadamente. Usamos vários modelos de ponta projetados pra cada tipo de dado.
Codificador de Áudio: Testamos vários modelos de áudio pra extrair características significativas dos sinais de áudio. Nossas descobertas mostraram que um modelo se destacou consistentemente em vários testes.
Codificador de Vídeo: Para os dados de vídeo, testamos modelos projetados pra capturar tanto informações espaciais quanto temporais. Assim como os modelos de áudio, um dos modelos de vídeo consistentemente entregou os melhores resultados.
Codificador de Texto: Na parte de texto, usamos modelos pré-treinados em datasets de Hindi e inglês. Esses modelos foram otimizados pra lidar com linguagem misturada, o que melhorou ainda mais nossa precisão de detecção.
Módulo de Sincronização Modal
Como estamos lidando com múltiplos tipos de dados, é importante sincronizá-los pra garantir que funcionem juntos de forma eficaz. O módulo de sincronização foca em alinhar as características extraídas de diferentes modalidades. Isso nos permite criar uma representação unificada dos dados.
Empregamos uma estratégia que conecta características de áudio, vídeo e texto, focando mais no texto devido à sua importância na detecção de toxicidade. Através de uma série de etapas, conseguimos criar um espaço de representação coeso que permite uma melhor integração dos diferentes tipos de dados.
Módulo Multitarefa
Finalmente, o módulo multitarefa processa os dados sincronizados pra realizar as tarefas de detecção. Ele pega todas as entradas processadas e as usa pra classificar cada vídeo em três objetivos: detectar toxicidade, determinar severidade e identificar sentimento.
Utilizamos uma função de perda pra treinar nosso modelo de forma eficaz, o que permite que o sistema aprenda a importância de cada tarefa. Esse design permite que o modelo tenha uma compreensão abrangente do conteúdo do vídeo, melhorando sua capacidade de detectar comportamentos tóxicos.
Configuração Experimental
Todos os experimentos foram conduzidos em uma máquina de alto desempenho equipada com CPUs e GPUs poderosos. Dividimos nosso dataset em conjuntos de treinamento, validação e teste pra garantir que o modelo pudesse generalizar bem. O processo de treinamento foi repetido várias vezes com diferentes divisões aleatórias pra garantir resultados confiáveis.
Modelos de Base
Pra avaliar a eficácia da nossa estrutura, comparamos ela com vários modelos de base. Esses modelos foram projetados pra processar dados de várias maneiras, e medimos seu desempenho baseado na capacidade de detectar toxicidade, severidade e sentimento em diferentes configurações.
Descobertas dos Experimentos
Os resultados dos nossos experimentos forneceram insights valiosos:
Determinamos que o processamento de texto era crucial pra detectar conteúdo tóxico. Entre as modalidades individuais, os modelos baseados em texto tiveram desempenho significativamente melhor do que áudio e vídeo sozinhos.
Combinar dados de texto e áudio produziu resultados melhores do que misturar texto e vídeo, ou áudio e vídeo juntos.
Nosso modelo proposto consistentemente superou os modelos de base, alcançando maior precisão em todas as tarefas. Isso destacou a eficácia de combinar vários tipos de dados pra detecção.
Quando comparamos modelos de tarefa única com modelos multitarefa, as versões multitarefa mostraram desempenho melhorado na detecção de toxicidade, avaliação de severidade e análise de sentimento.
Análise Estatística
Pra garantir a confiabilidade dos nossos resultados, realizamos testes estatísticos comparando nossos modelos propostos com os modelos de base. As descobertas indicaram que nossos resultados foram estatisticamente significativos, afirmando a eficácia da nossa estrutura ToxVidLLM.
Conclusão e Trabalhos Futuros
Com a crescente prevalência de vídeos, especialmente aqueles que contêm línguas misturadas, nosso trabalho é oportuno e necessário. A introdução do dataset ToxCMM marca um passo significativo adiante no campo da detecção de conteúdo tóxico, fornecendo um recurso único para pesquisadores e desenvolvedores.
Nossa estrutura ToxVidLLM mostrou potencial através de sua capacidade de combinar múltiplas modalidades de forma eficaz, focando na detecção de toxicidade em vídeos misturados. Além de apenas identificar conteúdo tóxico, nosso dataset também fornece insights sobre sentimento e severidade, permitindo uma exploração mais profunda de questões relacionadas ao comportamento online.
Enquanto esse trabalho estabelece a base para pesquisas futuras, existem limitações, incluindo a exclusão de toxicidade indireta e a necessidade de recursos computacionais substanciais. Abordar essas questões será essencial pra continuidade do desenvolvimento de sistemas eficazes de detecção de conteúdo tóxico.
Em resumo, à medida que o conteúdo em vídeo continua dominando a comunicação online, desenvolver ferramentas pra identificar e mitigar comportamentos tóxicos será vital pra criar espaços digitais mais seguros. Essa pesquisa pretende abrir caminho pra métodos de detecção mais eficazes, promovendo, em última análise, um ambiente online mais respeitoso.
Título: ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos
Resumo: In an era of rapidly evolving internet technology, the surge in multimodal content, including videos, has expanded the horizons of online communication. However, the detection of toxic content in this diverse landscape, particularly in low-resource code-mixed languages, remains a critical challenge. While substantial research has addressed toxic content detection in textual data, the realm of video content, especially in non-English languages, has been relatively underexplored. This paper addresses this research gap by introducing a benchmark dataset, the first of its kind, consisting of 931 videos with 4021 code-mixed Hindi-English utterances collected from YouTube. Each utterance within this dataset has been meticulously annotated for toxicity, severity, and sentiment labels. We have developed an advanced Multimodal Multitask framework built for Toxicity detection in Video Content by leveraging Language Models (LMs), crafted for the primary objective along with the additional tasks of conducting sentiment and severity analysis. ToxVidLM incorporates three key modules - the Encoder module, Cross-Modal Synchronization module, and Multitask module - crafting a generic multimodal LM customized for intricate video classification tasks. Our experiments reveal that incorporating multiple modalities from the videos substantially enhances the performance of toxic content detection by achieving an Accuracy and Weighted F1 score of 94.29% and 94.35%, respectively.
Autores: Krishanu Maity, A. S. Poornash, Sriparna Saha, Pushpak Bhattacharyya
Última atualização: 2024-07-14 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.20628
Fonte PDF: https://arxiv.org/pdf/2405.20628
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/justaguyalways/ToxVidLLM_ACL_2024
- https://github.com/justaguyalways/ToxVidLLM
- https://blog.youtube/press/
- https://www.wsj.com/articles/germany-to-social-networks-delete-hate-speech-faster-or-face-fines-1498757679
- https://www.forbes.com/sites/johnkoetsier/2020/06/09/300000-facebook-content-moderation-mistakes-daily-report-says/?sh=777a39954d03
- https://www.forbes.com/sites/johnkoetsier
- https://pytorch.org/
- https://docs.scipy.org/doc/scipy-1.6.3/reference/generated/scipy.stats.ttest_ind.html
- https://huggingface.co/sarvamai/OpenHathi-7B-Hi-v0.1-Base