Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Avaliação de Modelos de Linguagem Grandes em Persa

Esse estudo avalia o desempenho dos LLMs com a língua persa.

― 5 min ler


LLMs em persa: UmLLMs em persa: UmMergulho Profundolinguagem em tarefas em persa.Explorando a eficácia dos modelos de
Índice

Este artigo analisa como os grandes modelos de linguagem (LLMs) funcionam com o idioma persa. Embora modelos como o ChatGPT sejam ótimos em inglês, queremos ver como eles se saem com idiomas que têm menos recursos, como o persa. Focamos principalmente no GPT-3.5-turbo do ChatGPT, mas também incluímos o GPT-4 e o OpenChat-3.5 para uma compreensão mais ampla.

Propósito do Estudo

Nos propusemos a realizar uma avaliação detalhada dos LLMs em várias tarefas em persa. Categorizar essas tarefas em três grupos principais: tarefas clássicas, Tarefas de Raciocínio e tarefas baseadas em conhecimento. Como não há muitos conjuntos de dados Persas disponíveis para tarefas de raciocínio, criamos dois novos padrões: um com questões básicas de matemática para o ensino fundamental e outro baseado em provas de vestibular para séries posteriores.

Principais Descobertas

Nossa análise mostra que, embora LLMs como o GPT-4 sejam bons em tarefas que precisam de raciocínio e conhecimento geral, muitas vezes não se saem tão bem quanto modelos menores que foram especialmente treinados para tarefas específicas. Também descobrimos que traduzir perguntas de teste para o inglês antes de usar o GPT-3.5 ajuda a melhorar seu desempenho.

A Importância do Persa em PLN

O persa é um idioma significativo falado por milhões no Irã e regiões vizinhas. Tem suas próprias características únicas, incluindo um alfabeto e estilo de escrita diferentes em comparação com muitos idiomas de alto recurso. Estudar como os LLMs lidam com o persa ajuda a abrir caminho para uma tecnologia melhor em idiomas não ingleses.

Métodos

Categorias de Tarefas

Dividimos nossa investigação em três categorias:

  1. Tarefas Clássicas: Inclui tarefas como análise de sentimentos, detecção de emoções e reconhecimento de entidades nomeadas.
  2. Tarefas de Raciocínio: Esta categoria inclui perguntas de múltipla escolha que avaliam a lógica do modelo e suas habilidades de resolução de problemas.
  3. Tarefas de Conhecimento: Essas exigem que os modelos respondam perguntas com base nas informações que aprenderam.

Coleta de Dados

Usamos conjuntos de dados públicos para muitas tarefas, mas criamos novos padrões em áreas onde os recursos eram escassos. Por exemplo, compilamos perguntas de matemática do ensino fundamental de provas reais e traduzimos perguntas em inglês para o persa.

Quebra Detalhada de Tarefas

Tarefas Clássicas

Análise de Sentimentos: Nesta tarefa, analisamos o tom emocional do texto, determinando se é positivo, neutro ou negativo. Usamos dados do conjunto de dados ParsiNLU.

Reconhecimento de Emoções: Esta tarefa visa identificar emoções específicas no texto com base no modelo de seis emoções básicas de Paul Ekman.

Reconhecimento de Entidades Nomeadas (NER): Aqui, o objetivo é identificar nomes, locais e organizações no texto. Utilizamos o conjunto de dados ArmanNER para isso.

Tarefas de Raciocínio

Compreensão de Leitura: Isso requer encontrar respostas em um parágrafo dado com base em uma pergunta. Obtivemos nossos dados do conjunto de dados ParsiNLU.

QA de Múltipla Escolha: Criamos perguntas que exigem raciocínio lógico para escolher a resposta certa entre opções.

Matemática e Lógica: Isso envolve responder a perguntas relacionadas à matemática usando habilidades de raciocínio, incluindo aritmética básica e resolução de problemas.

Configuração Experimental

Realizamos testes usando diferentes modelos e tarefas para ver como eles se saem com o persa. Focamos em usar prompts em persa e inglês para avaliar os modelos em várias condições.

Resultados e Observações

Visão Geral de Desempenho

Em nossas descobertas:

  • Tarefas Clássicas: O GPT-4 se saiu bem, muitas vezes superando modelos anteriores. No entanto, o GPT-3.5 mostrou limitações, especialmente quando solicitado em persa.
  • Tarefas de Raciocínio: O GPT-3.5 teve dificuldades, enquanto o GPT-4 mostrou melhorias com mais exemplos.
  • Tarefas de Conhecimento: O GPT-4 demonstrou um conhecimento robusto sobre tópicos gerais, mas faltou profundidade na literatura persa.

Impacto da Língua do Prompt

Uma descoberta importante foi que usar prompts em inglês resultou em melhor desempenho em geral. Traduzir exemplos do persa para o inglês antes de inserir também levou a uma maior precisão nas respostas.

Desafios Enfrentados

Nosso estudo destacou alguns desafios na implementação de LLMs em contextos não ingleses.

  1. Recursos Limitados: O persa carece dos vastos conjuntos de dados disponíveis para o inglês, tornando o treinamento e a avaliação mais difíceis.
  2. Limitações do Modelo: Muitos modelos não se saíram como esperado ao serem solicitados a interpretar tarefas em persa diretamente.

Conclusão e Trabalho Futuro

A avaliação de LLMs em persa ainda está em seus estágios iniciais. Nossos resultados apontam para oportunidades significativas de melhorar o desempenho dos LLMs em idiomas com poucos recursos. Estudos futuros poderiam expandir os conjuntos de dados existentes e explorar tarefas mais avançadas.

Continuando a estudar como esses modelos funcionam em contextos não ingleses, podemos desenvolver melhores ferramentas para falantes de persa e aprimorar as capacidades multilíngues nas tecnologias de IA.

Agradecimentos

Agradecemos a todos os colaboradores que forneceram insights e dados para este estudo. O esforço colaborativo destaca a importância de trabalhar juntos para avanços em PLN.


Este estudo estabelece as bases para futuras investigações e aplicações relacionadas a grandes modelos de linguagem e sua eficácia em entender e gerar texto em persa.

Fonte original

Título: Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT

Resumo: This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. We present the first comprehensive benchmarking study of LLMs across diverse Persian language tasks. Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models. Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades. Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5. These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.

Autores: Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi, Yadollah Yaghoobzadeh

Última atualização: 2024-04-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.02403

Fonte PDF: https://arxiv.org/pdf/2404.02403

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes