Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação

Enfrentando os desafios da recomendação de notícias multilíngues

Um conjunto de dados pra melhorar as recomendações de notícias em várias línguas.

― 8 min ler


Avanço no Conjunto deAvanço no Conjunto deDados de NotíciasMultilínguesrecomendações de notícias multilíngues.Um conjunto de dados que melhora as
Índice

Plataformas de notícias digitais são uma fonte chave de informação pra galera hoje em dia. Elas usam sistemas de recomendação pra ajudar os leitores a encontrarem matérias que combinem com seus interesses. Mas, a maioria desses sistemas foca principalmente em algumas línguas, principalmente o inglês. Com mais pessoas lendo notícias em várias línguas, isso pode criar desafios pra fornecer notícias relevantes pra todo mundo.

Muita gente consome notícias em mais de uma língua. Na verdade, um número significativo de pessoas nos Estados Unidos e na Europa fala línguas diferentes do inglês em casa. Apesar dessa diversidade crescente, muitas plataformas de notícias ainda não oferecem Recomendações em múltiplas línguas. Essa lacuna pode levar a sugestões menos relevantes pra leitores Multilíngues.

Pra resolver esse problema, a gente lançou um novo conjunto de dados projetado pra recomendações de notícias multilíngues. Esse conjunto de dados é baseado em artigos de notícias existentes e traduzido pra 14 línguas diferentes. O objetivo é apoiar melhores recomendações de notícias pros leitores que falam várias línguas.

A Necessidade de Sistemas de Recomendação Multilíngues

À medida que a internet se expande, a diversidade dos seus usuários cresce. Muita gente é bilíngue ou multilíngue, o que significa que lê e consome notícias em diferentes línguas. No entanto, a maioria dos sistemas de recomendação existentes foca principalmente no inglês e em algumas outras línguas amplamente usadas. Essa ênfase nas línguas principais pode deixar de fora conteúdos valiosos em línguas menos comuns.

Além disso, os atuais sistemas de recomendação de notícias muitas vezes presumem que os leitores consomem notícias em apenas uma língua. Essa abordagem não representa a realidade de muitos usuários que gostam de ler notícias de várias fontes. Como resultado, esses sistemas podem fornecer recomendações menos relevantes ou interessantes pra leitores multilíngues.

Também falta Conjuntos de dados multilíngues disponíveis publicamente que possam ser usados pra melhorar os sistemas de recomendação de notícias. A maioria dos conjuntos de dados existentes foca em uma língua ou inclui apenas línguas amplamente faladas. Essa disponibilidade limitada dificulta para pesquisadores e desenvolvedores criarem sistemas melhores que funcionem em várias línguas.

Apresentando o Conjunto de Dados de Notícias Multilíngues

Pra resolver a lacuna nas recomendações de notícias multilíngues, a gente criou um novo conjunto de dados. Esse conjunto de dados contém artigos de notícias traduzidos de um conjunto de dados em inglês bem conhecido pra 14 línguas diferentes. Essas línguas representam uma mistura de línguas amplamente faladas e menos comuns, cobrindo várias regiões e famílias de línguas.

O novo conjunto de dados visa ajudar pesquisadores e desenvolvedores a criarem sistemas de recomendação de notícias mais eficazes que possam atender a públicos multilíngues. Ele permite uma comparação direta de diferentes modelos de recomendação em várias línguas.

O conjunto de dados contém 130.379 artigos de notícias únicos. Cada artigo inclui um título traduzido e um resumo. A ideia é fornecer um recurso útil pra quem trabalha com recomendações de notícias em contextos multilíngues.

Avaliando Recomendadores de Notícias

Pra testar a eficácia do novo conjunto de dados, a gente fez experimentos com vários modelos de recomendação de notícias. Esses modelos usam diferentes técnicas pra sugerir artigos de notícias com base nas preferências do usuário.

A gente avaliou esses sistemas de recomendação em dois cenários: transferência zero-shot e transferência few-shot. No cenário zero-shot, a gente viu como modelos treinados em inglês poderiam fornecer recomendações em outra língua sem nenhum dado de treinamento pra essa língua.

No cenário few-shot, incluímos uma quantidade pequena de dados de treinamento na língua-alvo. A ideia era ver se mesmo um conhecimento limitado da língua-alvo poderia melhorar o Desempenho dos modelos.

A gente olhou tanto para padrões de consumo de notícias monolíngues quanto bilíngues em nossos experimentos. Padrões monolíngues se referem a ler e receber recomendações em apenas uma língua, enquanto padrões bilíngues envolvem consumir notícias em duas línguas.

Resultados dos Experimentos

Desempenho na Transferência Zero-Shot

Quando a gente checou como os modelos se saíram na transferência zero-shot, descobrimos que eles tiveram dificuldades. Mesmo os modelos com melhor desempenho treinados apenas em inglês tiveram problemas pra fazer recomendações precisas em línguas-alvo.

Alguns modelos mostraram uma pequena melhora em comparação a um método básico de recomendação baseado apenas em categorias. No entanto, o desempenho geral ainda ficou abaixo do esperado. A qualidade das recomendações foi mais fraca quando avaliada em relação a modelos que não consideravam o conteúdo.

Isso mostra que treinar apenas em inglês não prepara bem os modelos de recomendação pra contextos multilíngues. Indica que há necessidade de mais pesquisas pra desenvolver sistemas robustos que possam lidar com várias línguas de forma mais eficaz.

Desempenho na Transferência Few-Shot

No cenário de transferência few-shot, a gente descobriu que incorporar alguns dados de treinamento da língua-alvo ajudou a melhorar o desempenho. Modelos que tinham acesso a até uma pequena quantidade de dados da língua-alvo mostraram resultados melhores do que aqueles que não tinham.

No entanto, se a quantidade de dados da língua-alvo era muito baixa, o desempenho caía em comparação com configurações zero-shot. Isso sugere que ter uma quantidade suficiente de dados de treinamento na língua-alvo é crucial pra garantir um bom desempenho.

As melhorias foram particularmente notáveis para línguas com menos recursos e aquelas que não estavam incluídas nos dados de treinamento originais dos modelos. Isso destaca o potencial pra melhores recomendações se os modelos puderem aprender com dados diversos.

Padrões de Consumo Bilíngues

Quando a gente avaliou como os modelos se saíram em padrões de consumo bilíngues, vimos uma queda geral no desempenho à medida que a proporção da língua-alvo na história do usuário aumentava. Isso sugere que a entrada em línguas misturadas pode complicar o processo de recomendação.

Nem todos os modelos reagiram da mesma forma às histórias de usuários bilíngues. Alguns mostraram maior resiliência ao lidar com uma combinação de inglês e outra língua. Essa diferença indica que o design do codificador de usuários, que interpreta as preferências dos usuários, precisa se adaptar pra lidar melhor com entradas em diferentes línguas.

Qualidade da Tradução

Um aspecto importante de criar esse conjunto de dados foi a qualidade das traduções. A gente traduziu os artigos originais do inglês pra outras línguas usando um modelo de tradução de código aberto. Também comparamos as traduções com aquelas produzidas por um sistema comercial.

Anotadores humanos avaliaram a qualidade das traduções com base na legibilidade e precisão. As traduções foram geralmente consideradas aceitáveis, com muitas sendo claras e mantendo o significado original. No entanto, algumas línguas, especialmente as menos comuns, tenderam a ter notas mais baixas na qualidade da tradução.

Apesar das diferenças visíveis na qualidade da tradução, os sistemas de recomendação testados pareceram se comportar de forma semelhante, independentemente de as traduções terem vindo do modelo de código aberto ou do comercial. Essa robustez mostra que mesmo com variações na qualidade da tradução, os modelos ainda podem oferecer recomendações valiosas.

Conclusão

O conjunto de dados de notícias multilíngues é um passo essencial pra atender as necessidades de leitores de notícias diversos. Ao fornecer um recurso que inclui várias línguas, a gente espera inspirar mais pesquisas e desenvolvimento em recomendações de notícias multilíngues.

Os sistemas de recomendação atuais enfrentam desafios em atender usuários bilíngues e multilíngues. No entanto, com o novo conjunto de dados e esforços contínuos pra melhorar o desempenho dos modelos em contextos multilíngues, podemos trabalhar pra alcançar experiências de notícias melhores e mais relevantes pra todos os leitores.

As percepções obtidas com nossos experimentos destacam a importância de usar conjuntos de dados diversos. Elas também mostram que mais melhorias no design do modelo são necessárias pra atender efetivamente o número crescente de consumidores de notícias multilíngues. Conforme avançamos nessa área, podemos esperar ver melhorias significativas nas recomendações de notícias pra usuários no mundo todo, sejam eles que falem línguas amplamente faladas ou aquelas que costumam ser esquecidas.

Fonte original

Título: MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation

Resumo: Digital news platforms use news recommenders as the main instrument to cater to the individual information needs of readers. Despite an increasingly language-diverse online community, in which many Internet users consume news in multiple languages, the majority of news recommendation focuses on major, resource-rich languages, and English in particular. Moreover, nearly all news recommendation efforts assume monolingual news consumption, whereas more and more users tend to consume information in at least two languages. Accordingly, the existing body of work on news recommendation suffers from a lack of publicly available multilingual benchmarks that would catalyze development of news recommenders effective in multilingual settings and for low-resource languages. Aiming to fill this gap, we introduce xMIND, an open, multilingual news recommendation dataset derived from the English MIND dataset using machine translation, covering a set of 14 linguistically and geographically diverse languages, with digital footprints of varying sizes. Using xMIND, we systematically benchmark several state-of-the-art content-based neural news recommenders (NNRs) in both zero-shot (ZS-XLT) and few-shot (FS-XLT) cross-lingual transfer scenarios, considering both monolingual and bilingual news consumption patterns. Our findings reveal that (i) current NNRs, even when based on a multilingual language model, suffer from substantial performance losses under ZS-XLT and that (ii) inclusion of target-language data in FS-XLT training has limited benefits, particularly when combined with a bilingual news consumption. Our findings thus warrant a broader research effort in multilingual and cross-lingual news recommendation. The xMIND dataset is available at https://github.com/andreeaiana/xMIND.

Autores: Andreea Iana, Goran Glavaš, Heiko Paulheim

Última atualização: 2024-03-26 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.17876

Fonte PDF: https://arxiv.org/pdf/2403.17876

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes