Desafio Linguístico de Nollywood: Unindo Dialetos
Um estudo sobre como traduzir o inglês nigeriano para melhorar a acessibilidade em filmes de Nollywood.
― 7 min ler
Índice
- A Necessidade de Melhor Compreensão
- O Desafio dos Acentos em Sistemas Digitais
- Explorando a Influência de Nollywood
- A Importância de Olhar para os Dialetos
- Nossa Abordagem de Pesquisa
- Medindo a Toxicidade no Filme
- Desafios do Reconhecimento Automático de Fala
- Os Insights Obtidos de Nossas Descobertas
- Olhando para o Futuro: Direções de Pesquisa Futura
- Fonte original
- Ligações de referência
Nollywood é a indústria cinematográfica da Nigéria, conhecida por produzir uma infinidade de filmes que fazem sucesso tanto na Nigéria quanto no mundo todo. Essa indústria é inspirada em Bollywood, da Índia. Os filmes de Nollywood são geralmente feitos em inglês, mas o dialeto único do inglês nigeriano pode dificultar a compreensão para alguns espectadores. Muita gente na Nigéria fala diferentes idiomas nativos, como o Hausa, em casa, o que pode influenciar a forma como falam inglês.
A Necessidade de Melhor Compreensão
O objetivo desse estudo foi criar uma ferramenta que ajude a traduzir o inglês nigeriano para o inglês americano, facilitando para um público maior aproveitar os filmes de Nollywood. Além disso, a gente queria analisar a linguagem usada nesses filmes para ver quão tóxica ela é. Linguagem Tóxica se refere a palavras ou frases que são consideradas prejudiciais ou ofensivas. Focando em Nollywood, esperamos lidar com o desafio de entender os dialetos que muitas vezes são negligenciados.
O Desafio dos Acentos em Sistemas Digitais
Nos últimos anos, a tecnologia avançou na área de processamento de linguagem, principalmente no Reconhecimento Automático de Fala (ASR). Os sistemas ASR agora conseguem reconhecer e transcrever discursos em línguas de alta demanda, como inglês e espanhol, com bastante precisão. Contudo, ainda existem muitos desafios, especialmente com relação aos acentos. Pessoas de diferentes regiões pronunciam palavras de maneiras que podem confundir esses sistemas.
Por exemplo, pesquisas mostram que os sistemas ASR geralmente têm dificuldades em reconhecer o inglês com sotaque. Esse problema afeta não só o inglês nigeriano, mas também o inglês falado em várias partes dos Estados Unidos. Quando ouvimos um sotaque nigeriano, ele pode ser bem diferente de um sotaque americano, levando a mal-entendidos.
Explorando a Influência de Nollywood
Nollywood é atualmente uma das maiores indústrias cinematográficas do mundo. Ela gerou uma quantidade significativa de receita desde que começou, atraindo muitos espectadores. A indústria tem raízes em várias formas tradicionais de teatro e contar histórias encontradas na Nigéria. Ao longo dos anos, Nollywood cresceu e evoluiu, se tornando mais profissional e organizada, enquanto ainda exibe a rica cultura da Nigéria.
Ao examinar Nollywood, a gente focou nas diferenças entre o inglês falado na Nigéria e nos Estados Unidos. A Nigéria tem mais de 200 milhões de pessoas, enquanto os Estados Unidos têm mais de 300 milhões. O inglês é a língua oficial em ambos os países, mas a influência das línguas locais pode moldar como o inglês é falado.
Nos Estados Unidos, o inglês frequentemente domina a expressão cultural, especialmente nos filmes. Em contrapartida, os filmes de Nollywood destacam uma mistura de inglês e línguas locais, tornando-os únicos. Compreendendo essas diferenças, podemos melhorar tecnologias que dependem de reconhecimento de fala preciso e tradução.
A Importância de Olhar para os Dialetos
Muitos dos autores desse estudo falam inglês como língua principal, e um dos autores fala Hausa fluentemente. Esse histórico nos dá uma perspectiva única sobre as diferenças dialetais e nos ajuda a entender os desafios enfrentados por falantes de inglês nigeriano. Este trabalho visa contribuir para o desenvolvimento de melhores sistemas de reconhecimento e tradução para dialetos diversos.
Para ilustrar as diferenças entre o inglês nigeriano e o americano, comparamos amostras de áudio de falantes de ambos os dialetos. Analisando os padrões de fala, conseguimos identificar características únicas do inglês nigeriano que podem não estar presentes no inglês americano.
Nossa Abordagem de Pesquisa
No nosso estudo, examinamos dois filmes notáveis: "Deep Cut" de Nollywood e "Acrimony" de Hollywood. Coletamos transcrições desses filmes para analisar a linguagem usada, especialmente focando na linguagem tóxica e na capacidade dos sistemas ASR de lidar com o dialeto nigeriano.
A detecção de Toxicidade é um aspecto vital da análise de linguagem, especialmente em roteiros de filmes que podem conter conteúdo ofensivo ou prejudicial. É essencial entender como filmes com classificação para linguagem podem diferir em toxicidade entre as culturas.
Medindo a Toxicidade no Filme
Usando ferramentas avançadas, medimos a toxicidade dos roteiros dos dois filmes. Nosso objetivo era ver se certas palavras usadas em um dialeto eram consideradas mais tóxicas do que em outro. Ambos os filmes foram classificados como R para linguagem e normalmente incluem alguma linguagem tóxica, e queríamos avaliar o nível de toxicidade usando técnicas de medição disponíveis.
Nossa análise mostrou que os níveis de toxicidade nos dois filmes eram relativamente semelhantes, o que estava alinhado com nossas expectativas. No entanto, o contexto cultural em torno desses filmes pode influenciar como os espectadores interpretam a linguagem.
Desafios do Reconhecimento Automático de Fala
Os sistemas ASR geralmente estão bem desenvolvidos para o inglês americano, mas não se pode dizer o mesmo sobre o inglês nigeriano. Testamos dois modelos ASR populares, Whisper e XLS-R, em conjuntos de dados de Nollywood e ICE (Corpus Internacional de Inglês).
Os resultados mostraram que os sistemas ASR tiveram dificuldades significativas com o dialeto nigeriano. Por exemplo, o Whisper teve um desempenho ruim, com altas taxas de erro, enquanto o XLS-R teve resultados um pouco melhores, mas ainda assim não alcançou as expectativas.
Uma razão para essas dificuldades pode ser a falta de dados de treinamento especificamente voltados para os sotaques do inglês nigeriano. A maioria dos sistemas ASR foi treinada principalmente com dados de línguas de alta demanda, que podem não incluir sotaques diversos de países como a Nigéria.
Os Insights Obtidos de Nossas Descobertas
O que aprendemos com essa pesquisa é que, embora os filmes de Nollywood sejam divertidos e culturalmente ricos, eles apresentam desafios em termos de processamento de linguagem. Nossos experimentos destacaram as dificuldades contínuas em criar ferramentas digitais eficazes que acomode diferentes dialetos do inglês, especialmente aqueles que são menos representados na tecnologia atual.
Além disso, descobrimos que os filmes de Nollywood tendem a ser menos tendenciosos e, possivelmente, menos tóxicos em comparação com os filmes americanos. Isso indica que, embora ambas as indústrias cinematográficas tenham seus desafios, Nollywood apresenta uma oportunidade valiosa para mais pesquisas e desenvolvimentos em processamento digital de linguagem.
Olhando para o Futuro: Direções de Pesquisa Futura
Nosso estudo abre a porta para mais explorações em várias áreas. Por exemplo, seria legal expandir nossa pesquisa incluindo uma variedade maior de filmes nigerianos e outros dialetos. Isso ajudaria a capturar uma gama mais ampla de sotaques e usos da linguagem.
Além disso, entender por que os sistemas ASR às vezes interpretam erroneamente o inglês nigeriano como outras línguas, como árabe ou devanagari, merece mais investigação. Esses insights podem levar a melhorias na tecnologia e criar uma abordagem mais inclusiva para o reconhecimento de linguagem.
À medida que o mundo continua a abraçar ferramentas digitais para comunicação e entretenimento, é essencial garantir que todas as vozes estejam representadas. As ricas histórias de Nollywood merecem um público maior, e ao superar barreiras linguísticas, podemos ajudar mais pessoas a apreciar a beleza do cinema nigeriano.
Em conclusão, nossa pesquisa enfatiza a importância de abordar os desafios impostos pelos diferentes dialetos no processamento de linguagem. Focando em Nollywood e nos aspectos únicos do inglês nigeriano, podemos abrir caminho para sistemas digitais mais inclusivos e precisos no futuro.
Título: Nollywood: Let's Go to the Movies!
Resumo: Nollywood, based on the idea of Bollywood from India, is a series of outstanding movies that originate from Nigeria. Unfortunately, while the movies are in English, they are hard to understand for many native speakers due to the dialect of English that is spoken. In this article, we accomplish two goals: (1) create a phonetic sub-title model that is able to translate Nigerian English speech to American English and (2) use the most advanced toxicity detectors to discover how toxic the speech is. Our aim is to highlight the text in these videos which is often times ignored for lack of dialectal understanding due the fact that many people in Nigeria speak a native language like Hausa at home.
Autores: John E. Ortega, Ibrahim Said Ahmad, William Chen
Última atualização: 2024-07-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.02631
Fonte PDF: https://arxiv.org/pdf/2407.02631
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.census.gov/popclock/world/ni
- https://en.wikipedia.org/wiki/Demographics_of_the_United_States
- https://interspeech2023.org/
- https://2023.aclweb.org/
- https://speechgen.io
- https://www.youtube.com/watch?v=Xl6ANUHjEtI
- https://en.wikipedia.org/wiki/Acrimony_
- https://huggingface.co/spaces/evaluate-measurement/toxicity
- https://github.com/facebookresearch/stopes/tree/main/demo/toxicity-alti-hb/ETOX
- https://github.com/openai/whisper
- https://www.census.gov/newsroom/blogs/random-samplings/2023/05/racial-ethnic-diversity-adults-children.html