Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Competição GUA-SPA: Insights Bilíngues no IberLEF 2023

Uma competição explorando a troca de códigos entre Guarani e espanhol.

― 5 min ler


GUA-SPA: Mudança deGUA-SPA: Mudança deCódigo Reveladaentre Guarani e Espanhóis.Uma competição destacando as interações
Índice

Esse artigo fala sobre a competição GUA-SPA que rolou no IberLEF 2023, focando na detecção e análise do code-switching entre Guarani e espanhol. Code-switching acontece quando pessoas trocam de língua no meio de uma conversa ou frase. Esse evento é importante porque é a primeira vez que uma competição desse tipo inclui o Guarani, que é uma língua indígena da América do Sul.

O que é Code-Switching?

Code-switching rola quando falantes bilíngues misturam línguas na fala ou na escrita. Isso acontece muito em lugares onde duas línguas são faladas, como no Paraguai, onde tanto Guarani quanto espanhol são línguas oficiais. Muitas pessoas no Paraguai falam as duas línguas, especialmente nas cidades, o que resulta em várias formas de combiná-las.

A Competição GUA-SPA

A competição GUA-SPA teve três tarefas principais:

  1. Identificação de Língua: Os participantes tinham que descobrir se cada palavra em uma frase era Guarani, espanhol, uma entidade nomeada, uma mistura das duas línguas, de outra língua ou um token não-linguístico (como pontuação).

  2. Reconhecimento de Entidade Nomeada (NER): Essa tarefa envolvia identificar entidades específicas no texto, como pessoas, lugares ou organizações, e classificá-las em categorias.

  3. Classificação do Código em Espanhol: Aqui, os participantes precisavam rotular como o espanhol era usado em contextos misturados, como se o texto em espanhol permanecia totalmente em espanhol ou se era adaptado para se encaixar na estrutura do Guarani.

Dados para as Tarefas

A competição foi baseada em um conjunto de dados cuidadosamente selecionado, contendo 1.500 textos, incluindo artigos de notícias e tweets. No total, esse conjunto apresentava aproximadamente 25.000 tokens (palavras ou símbolos individuais) anotados com informações relevantes para as tarefas.

Participantes e Resultados

Três equipes participaram da fase de avaliação da competição, produzindo resultados variados. No geral, a primeira tarefa, identificação de língua, mostrou um bom desempenho, enquanto as segunda e terceira tarefas tiveram resultados mais mistos. Isso indicou que identificar corretamente a língua de cada palavra era mais tranquilo do que reconhecer entidades nomeadas ou classificar usos do espanhol.

Guarani e Espanhol no Paraguai

O Guarani é uma língua nativa falada por muitos no Paraguai, enquanto o espanhol é a língua colonial do país. As duas línguas estão em contato há séculos, resultando em variações interessantes. A maioria dos paraguaios consegue se comunicar nas duas línguas, mas a forma como as misturam pode variar bastante.

Analisando Variantes de Língua Misturada

Duas variantes mistas notáveis do Guarani são Jopara e Jehe'a. O Jopara geralmente integra palavras em espanhol diretamente, enquanto o Jehe'a pode adotar frases em espanhol com alguns ajustes gramaticais para se encaixar na estrutura do Guarani. A competição teve como objetivo analisar como essas variantes aparecem na comunicação do dia a dia, especialmente em postagens nas redes sociais e artigos de notícias.

Importância da Competição

Essa competição é crucial por várias razões:

  • Destaque para o Bilinguismo: Ela traz à tona o fenômeno do code-switching em comunidades bilíngues, ajudando na compreensão do uso da língua em contextos reais.

  • Desenvolvimento de Recursos: Prepara o terreno para futuras pesquisas e criação de recursos para o Guarani, que é considerado uma língua de baixo recurso em termos de ferramentas digitais e pesquisa.

  • Incentivo à Pesquisa: Focando em línguas indígenas, a competição espera estimular mais interesse e pesquisa no code-switching de outras línguas que têm dinâmicas semelhantes.

Detalhes da Fase de Avaliação

A fase de avaliação rolou de maio até o início de junho de 2023. Os participantes enviaram seus resultados com base no conjunto de testes, e diferentes métricas foram usadas para avaliar seu desempenho.

Desafios Enfrentados pelos Participantes

Embora os resultados tenham sido promissores para a primeira tarefa, as segundo e terceira tarefas se mostraram mais desafiadoras. Por exemplo, os participantes acharam difícil classificar frases em língua misturada com precisão, já que muitos casos eram ambíguos. Isso indica que até os anotadores humanos tiveram dificuldades em tomar decisões claras sobre certos usos mistos.

Direções Futuras

A iniciativa GUA-SPA pretende expandir seu alcance no futuro. Isso inclui explorar outras variedades de Guarani, como aquelas faladas na Bolívia, e potencialmente adicionar o português na mistura. Essas etapas não apenas enriqueceriam o escopo da pesquisa, mas também melhorariam a compreensão do contato linguístico na América do Sul.

Conclusão

A competição GUA-SPA no IberLEF 2023 marca um passo significativo na pesquisa sobre code-switching em um contexto linguístico único. Ela combina o estudo do Guarani e do espanhol no Paraguai, mostrando as complexidades e a riqueza da comunicação bilíngue. Esse esforço é só o começo de uma exploração mais ampla nas interações de várias línguas, esperando inspirar mais pesquisas nas dinâmicas das línguas indígenas.

Mais de autores

Artigos semelhantes