Competição GUA-SPA: Insights Bilíngues no IberLEF 2023
Uma competição explorando a troca de códigos entre Guarani e espanhol.
― 5 min ler
Esse artigo fala sobre a competição GUA-SPA que rolou no IberLEF 2023, focando na detecção e análise do code-switching entre Guarani e espanhol. Code-switching acontece quando pessoas trocam de língua no meio de uma conversa ou frase. Esse evento é importante porque é a primeira vez que uma competição desse tipo inclui o Guarani, que é uma língua indígena da América do Sul.
O que é Code-Switching?
Code-switching rola quando falantes bilíngues misturam línguas na fala ou na escrita. Isso acontece muito em lugares onde duas línguas são faladas, como no Paraguai, onde tanto Guarani quanto espanhol são línguas oficiais. Muitas pessoas no Paraguai falam as duas línguas, especialmente nas cidades, o que resulta em várias formas de combiná-las.
A Competição GUA-SPA
A competição GUA-SPA teve três tarefas principais:
Identificação de Língua: Os participantes tinham que descobrir se cada palavra em uma frase era Guarani, espanhol, uma entidade nomeada, uma mistura das duas línguas, de outra língua ou um token não-linguístico (como pontuação).
Reconhecimento de Entidade Nomeada (NER): Essa tarefa envolvia identificar entidades específicas no texto, como pessoas, lugares ou organizações, e classificá-las em categorias.
Classificação do Código em Espanhol: Aqui, os participantes precisavam rotular como o espanhol era usado em contextos misturados, como se o texto em espanhol permanecia totalmente em espanhol ou se era adaptado para se encaixar na estrutura do Guarani.
Dados para as Tarefas
A competição foi baseada em um conjunto de dados cuidadosamente selecionado, contendo 1.500 textos, incluindo artigos de notícias e tweets. No total, esse conjunto apresentava aproximadamente 25.000 tokens (palavras ou símbolos individuais) anotados com informações relevantes para as tarefas.
Participantes e Resultados
Três equipes participaram da fase de avaliação da competição, produzindo resultados variados. No geral, a primeira tarefa, identificação de língua, mostrou um bom desempenho, enquanto as segunda e terceira tarefas tiveram resultados mais mistos. Isso indicou que identificar corretamente a língua de cada palavra era mais tranquilo do que reconhecer entidades nomeadas ou classificar usos do espanhol.
Guarani e Espanhol no Paraguai
O Guarani é uma língua nativa falada por muitos no Paraguai, enquanto o espanhol é a língua colonial do país. As duas línguas estão em contato há séculos, resultando em variações interessantes. A maioria dos paraguaios consegue se comunicar nas duas línguas, mas a forma como as misturam pode variar bastante.
Analisando Variantes de Língua Misturada
Duas variantes mistas notáveis do Guarani são Jopara e Jehe'a. O Jopara geralmente integra palavras em espanhol diretamente, enquanto o Jehe'a pode adotar frases em espanhol com alguns ajustes gramaticais para se encaixar na estrutura do Guarani. A competição teve como objetivo analisar como essas variantes aparecem na comunicação do dia a dia, especialmente em postagens nas redes sociais e artigos de notícias.
Importância da Competição
Essa competição é crucial por várias razões:
Destaque para o Bilinguismo: Ela traz à tona o fenômeno do code-switching em comunidades bilíngues, ajudando na compreensão do uso da língua em contextos reais.
Desenvolvimento de Recursos: Prepara o terreno para futuras pesquisas e criação de recursos para o Guarani, que é considerado uma língua de baixo recurso em termos de ferramentas digitais e pesquisa.
Incentivo à Pesquisa: Focando em línguas indígenas, a competição espera estimular mais interesse e pesquisa no code-switching de outras línguas que têm dinâmicas semelhantes.
Detalhes da Fase de Avaliação
A fase de avaliação rolou de maio até o início de junho de 2023. Os participantes enviaram seus resultados com base no conjunto de testes, e diferentes métricas foram usadas para avaliar seu desempenho.
Desafios Enfrentados pelos Participantes
Embora os resultados tenham sido promissores para a primeira tarefa, as segundo e terceira tarefas se mostraram mais desafiadoras. Por exemplo, os participantes acharam difícil classificar frases em língua misturada com precisão, já que muitos casos eram ambíguos. Isso indica que até os anotadores humanos tiveram dificuldades em tomar decisões claras sobre certos usos mistos.
Direções Futuras
A iniciativa GUA-SPA pretende expandir seu alcance no futuro. Isso inclui explorar outras variedades de Guarani, como aquelas faladas na Bolívia, e potencialmente adicionar o português na mistura. Essas etapas não apenas enriqueceriam o escopo da pesquisa, mas também melhorariam a compreensão do contato linguístico na América do Sul.
Conclusão
A competição GUA-SPA no IberLEF 2023 marca um passo significativo na pesquisa sobre code-switching em um contexto linguístico único. Ela combina o estudo do Guarani e do espanhol no Paraguai, mostrando as complexidades e a riqueza da comunicação bilíngue. Esse esforço é só o começo de uma exploração mais ampla nas interações de várias línguas, esperando inspirar mais pesquisas nas dinâmicas das línguas indígenas.
Título: Overview of GUA-SPA at IberLEF 2023: Guarani-Spanish Code Switching Analysis
Resumo: We present the first shared task for detecting and analyzing code-switching in Guarani and Spanish, GUA-SPA at IberLEF 2023. The challenge consisted of three tasks: identifying the language of a token, NER, and a novel task of classifying the way a Spanish span is used in the code-switched context. We annotated a corpus of 1500 texts extracted from news articles and tweets, around 25 thousand tokens, with the information for the tasks. Three teams took part in the evaluation phase, obtaining in general good results for Task 1, and more mixed results for Tasks 2 and 3.
Autores: Luis Chiruzzo, Marvin Agüero-Torales, Gustavo Giménez-Lugo, Aldo Alvarez, Yliana Rodríguez, Santiago Góngora, Thamar Solorio
Última atualização: 2023-09-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.06163
Fonte PDF: https://arxiv.org/pdf/2309.06163
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.