Avançando a Análise de Sentimentos para Línguas Nigerianas
Novo conjunto de dados melhora a análise de sentimento para resenhas de filmes nigerianos em cinco idiomas.
― 7 min ler
Índice
A Nigéria tem um rico patrimônio cultural com mais de 2000 idiomas. No entanto, muitas dessas línguas não estão representadas nas pesquisas de processamento de linguagem natural (PLN). Isso criou uma lacuna na criação de ferramentas e recursos para esses idiomas, especialmente em áreas como análise de sentimento. Esforços recentes foram feitos para criar conjuntos de dados rotulados para algumas dessas línguas, mas geralmente focam em um único domínio, limitando sua eficácia quando aplicados a outras áreas.
Neste estudo, abordamos o desafio da classificação de sentimentos para críticas de filmes nigerianos. Desenvolvemos um novo conjunto de dados, chamado NollySenti, derivado de críticas de filmes de Nollywood e abrangendo cinco línguas amplamente faladas na Nigéria: inglês, Hausa, igbo, iorubá e pidgin nigeriano. Realizamos experimentos extensivos usando diferentes métodos de aprendizado de máquina, incluindo técnicas tradicionais e modelos de linguagem modernos pré-treinados.
Contexto
A análise de sentimento é uma tarefa chave na PLN que envolve determinar a opinião ou emoção expressa em um texto. Muitos conjuntos de dados bem estabelecidos existem para línguas de alto recurso como o inglês, permitindo que pesquisadores construam modelos eficazes de análise de sentimento. Em contraste, conjuntos de dados para línguas nigerianas são escassos, sendo o único conjunto notável o NaijaSenti, que é baseado em dados do Twitter para algumas línguas nigerianas. No entanto, não está claro quão bem esse conjunto de dados pode ser aplicado a outros domínios, como críticas de filmes.
Criação do Conjunto de Dados
NollySenti é um conjunto de dados de classificação de sentimentos criado especificamente para críticas de filmes de Nollywood, que são importantes para a cultura nigeriana. Apesar de Nollywood ser a segunda maior indústria cinematográfica do mundo, encontrar críticas de filmes em línguas indígenas é difícil. A maioria das críticas está disponível apenas em inglês. Para criar o NollySenti, coletamos 1.900 críticas em inglês de plataformas populares de críticas de filmes como IMDb, Rotten Tomatoes e sites nigerianos como Cinemapointer e Nollyrated.
Para tornar o conjunto de dados multilíngue, contratamos tradutores profissionais para traduzir aproximadamente 1.000 dessas críticas para quatro línguas nigerianas. As traduções foram verificadas por falantes nativos para garantir que fossem precisas e confiáveis.
Línguas em Foco
O estudo foca em quatro línguas nigerianas principais:
Hausa: Uma língua afro-asiática amplamente falada com cerca de 77 milhões de falantes. É prevalente no norte da Nigéria e em países vizinhos.
Igbo: Um membro da família de línguas Niger-Congo, falado por cerca de 31 milhões de pessoas. É encontrado principalmente no sudeste da Nigéria.
Iorubá: Esta língua, também da família Niger-Congo, tem cerca de 50 milhões de falantes e é amplamente falada no sudoeste da Nigéria e além.
Pidgin Nigeriano (Naija): Uma língua crioula com mais de 120 milhões de falantes, serve como uma ponte linguística comum entre vários grupos étnicos na Nigéria.
Metodologia
Realizamos vários experimentos para avaliar o desempenho dos nossos modelos de classificação de sentimentos. Esses experimentos incluíram:
Transferência de Aprendizado: Comparamos a eficácia de adaptar modelos treinados em diferentes domínios. Isso incluiu transferir conhecimento de redes sociais (Twitter) para críticas de filmes.
Adaptação Cruzada de Línguas: Exploramos a transferência de conhecimento do inglês para as outras línguas nigerianas e avaliamos quão bem os modelos treinados em inglês se desempenhavam quando avaliados nessas línguas.
Tradução Automática: Para lidar com diferenças de domínio, utilizamos tradução automática para converter críticas em inglês em outras línguas nigerianas. A eficácia dessa abordagem foi avaliada para melhorar o desempenho do modelo.
Resultados
Nossas avaliações revelaram insights significativos sobre a eficácia da transferência de aprendizado e da tradução automática para a classificação de sentimentos em línguas com poucos recursos.
Transferência de Aprendizado
Ao transferir conhecimento de modelos em inglês para as línguas nigerianas, conseguimos cerca de 5% de melhoria na precisão em comparação com modelos que dependiam de dados do Twitter. Isso indica que modelos treinados em críticas de filmes em inglês podem se generalizar efetivamente para classificar sentimentos em críticas semelhantes escritas em outras línguas nigerianas.
Tradução Automática
Implementando a tradução automática do inglês para outras línguas, observamos uma melhoria adicional de 7% no desempenho das tarefas de classificação de sentimentos. Embora a qualidade da tradução automática para línguas com poucos recursos seja muitas vezes inconsistente, nossas avaliações humanas mostraram que a maioria das frases traduzidas preservou efetivamente o sentimento das críticas originais em inglês.
Avaliação Humana
Para validar ainda mais a qualidade da tradução automática, contratamos falantes nativos das línguas focadas para avaliar uma amostra de frases traduzidas. Eles avaliaram a adequação das traduções-quão bem o significado foi transmitido-e a preservação do sentimento-se o tom emocional foi mantido.
Os resultados das avaliações humanas mostraram que cerca de 90% das traduções preservaram o sentimento original. Isso destaca o potencial da tradução automática como uma ferramenta de suporte para criar recursos para línguas com poucos recursos.
Desafios e Limitações
Embora tenhamos alcançado resultados encorajadores, existem desafios e limitações a serem considerados:
Qualidade da Tradução Automática: A eficácia dos sistemas de tradução automática pode variar muito. Em alguns casos, as traduções podem ser imprecisas ou sem sentido, o que pode levar a perda de sentimento ou interpretações errôneas.
Linguagem Específica de Domínio: O estilo e o vocabulário usados nas críticas de Nollywood podem diferir dos usados em outros domínios, como redes sociais. Isso pode impactar o desempenho do modelo ao adaptar-se a diferentes contextos.
Necessidade de Conjuntos de Dados Robustos: A falta de conjuntos de dados rotulados extensos para línguas nigerianas torna desafiador construir e validar modelos de forma eficaz. Mais recursos e esforços de coleta de dados são necessários no futuro.
Direções Futuras
Olhando para o futuro, buscamos expandir a criação de conjuntos de dados de classificação de sentimentos para mais línguas africanas. Isso ajudará a ampliar o escopo da pesquisa em PLN em línguas sub-representadas e possibilitará o desenvolvimento de ferramentas de PLN mais eficazes.
Além disso, abordar as lacunas na qualidade da tradução automática para línguas com poucos recursos deve ser uma prioridade para melhorar a Análise de Sentimentos e outras tarefas de PLN. Esforços colaborativos com especialistas em línguas e partes interessadas em tecnologia podem promover melhores recursos e melhorar o estado da PLN para línguas africanas.
Conclusão
Em resumo, nosso trabalho destaca não apenas a necessidade de maior representação das línguas nigerianas na PLN, mas também o potencial da transferência de aprendizado e da tradução automática para melhorar a classificação de sentimentos. Ao criar um novo conjunto de dados de classificação de sentimentos baseado em críticas de filmes de Nollywood, damos um passo significativo para melhorar as ferramentas disponíveis para línguas nigerianas. As descobertas sublinham a importância da pesquisa contínua, desenvolvimento de recursos e colaboração para apoiar línguas com poucos recursos no campo do processamento de linguagem natural.
Título: NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification
Resumo: Africa has over 2000 indigenous languages but they are under-represented in NLP research due to lack of datasets. In recent years, there have been progress in developing labeled corpora for African languages. However, they are often available in a single domain and may not generalize to other domains. In this paper, we focus on the task of sentiment classification for cross domain adaptation. We create a new dataset, NollySenti - based on the Nollywood movie reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo, Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using classical machine learning methods and pre-trained language models. Leveraging transfer learning, we compare the performance of cross-domain adaptation from Twitter domain, and cross-lingual adaptation from English language. Our evaluation shows that transfer from English in the same target domain leads to more than 5% improvement in accuracy compared to transfer from Twitter in the same language. To further mitigate the domain difference, we leverage machine translation (MT) from English to other Nigerian languages, which leads to a further improvement of 7% over cross-lingual evaluation. While MT to low-resource languages are often of low quality, through human evaluation, we show that most of the translated sentences preserve the sentiment of the original English reviews.
Autores: Iyanuoluwa Shode, David Ifeoluwa Adelani, Jing Peng, Anna Feldman
Última atualização: 2023-08-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.10971
Fonte PDF: https://arxiv.org/pdf/2305.10971
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.census.gov/popclock/print.php?component=counter
- https://www.masterclass.com/articles/nollywood-new-nigerian-cinema-explained
- https://github.com/IyanuSh/NollySenti
- https://www.ethnologue.com/guides/ethnologue200
- https://letterboxd.com/
- https://nollyrated.com/
- https://nollywoodpost.com/
- https://whatkeptmeup.com/
- https://arxiv.org/abs/2205.15960
- https://huggingface.co/facebook/nllb-200-distilled-600M