Avaliação de Modelos de Linguagem Grandes em Persa
Esse estudo avalia o desempenho dos LLMs com a língua persa.
― 5 min ler
Índice
- Propósito do Estudo
- Principais Descobertas
- A Importância do Persa em PLN
- Métodos
- Categorias de Tarefas
- Coleta de Dados
- Quebra Detalhada de Tarefas
- Tarefas Clássicas
- Tarefas de Raciocínio
- Configuração Experimental
- Resultados e Observações
- Visão Geral de Desempenho
- Impacto da Língua do Prompt
- Desafios Enfrentados
- Conclusão e Trabalho Futuro
- Agradecimentos
- Fonte original
- Ligações de referência
Este artigo analisa como os grandes modelos de linguagem (LLMs) funcionam com o idioma persa. Embora modelos como o ChatGPT sejam ótimos em inglês, queremos ver como eles se saem com idiomas que têm menos recursos, como o persa. Focamos principalmente no GPT-3.5-turbo do ChatGPT, mas também incluímos o GPT-4 e o OpenChat-3.5 para uma compreensão mais ampla.
Propósito do Estudo
Nos propusemos a realizar uma avaliação detalhada dos LLMs em várias tarefas em persa. Categorizar essas tarefas em três grupos principais: tarefas clássicas, Tarefas de Raciocínio e tarefas baseadas em conhecimento. Como não há muitos conjuntos de dados Persas disponíveis para tarefas de raciocínio, criamos dois novos padrões: um com questões básicas de matemática para o ensino fundamental e outro baseado em provas de vestibular para séries posteriores.
Principais Descobertas
Nossa análise mostra que, embora LLMs como o GPT-4 sejam bons em tarefas que precisam de raciocínio e conhecimento geral, muitas vezes não se saem tão bem quanto modelos menores que foram especialmente treinados para tarefas específicas. Também descobrimos que traduzir perguntas de teste para o inglês antes de usar o GPT-3.5 ajuda a melhorar seu desempenho.
A Importância do Persa em PLN
O persa é um idioma significativo falado por milhões no Irã e regiões vizinhas. Tem suas próprias características únicas, incluindo um alfabeto e estilo de escrita diferentes em comparação com muitos idiomas de alto recurso. Estudar como os LLMs lidam com o persa ajuda a abrir caminho para uma tecnologia melhor em idiomas não ingleses.
Métodos
Categorias de Tarefas
Dividimos nossa investigação em três categorias:
- Tarefas Clássicas: Inclui tarefas como análise de sentimentos, detecção de emoções e reconhecimento de entidades nomeadas.
- Tarefas de Raciocínio: Esta categoria inclui perguntas de múltipla escolha que avaliam a lógica do modelo e suas habilidades de resolução de problemas.
- Tarefas de Conhecimento: Essas exigem que os modelos respondam perguntas com base nas informações que aprenderam.
Coleta de Dados
Usamos conjuntos de dados públicos para muitas tarefas, mas criamos novos padrões em áreas onde os recursos eram escassos. Por exemplo, compilamos perguntas de matemática do ensino fundamental de provas reais e traduzimos perguntas em inglês para o persa.
Quebra Detalhada de Tarefas
Tarefas Clássicas
Análise de Sentimentos: Nesta tarefa, analisamos o tom emocional do texto, determinando se é positivo, neutro ou negativo. Usamos dados do conjunto de dados ParsiNLU.
Reconhecimento de Emoções: Esta tarefa visa identificar emoções específicas no texto com base no modelo de seis emoções básicas de Paul Ekman.
Reconhecimento de Entidades Nomeadas (NER): Aqui, o objetivo é identificar nomes, locais e organizações no texto. Utilizamos o conjunto de dados ArmanNER para isso.
Tarefas de Raciocínio
Compreensão de Leitura: Isso requer encontrar respostas em um parágrafo dado com base em uma pergunta. Obtivemos nossos dados do conjunto de dados ParsiNLU.
QA de Múltipla Escolha: Criamos perguntas que exigem raciocínio lógico para escolher a resposta certa entre opções.
Matemática e Lógica: Isso envolve responder a perguntas relacionadas à matemática usando habilidades de raciocínio, incluindo aritmética básica e resolução de problemas.
Configuração Experimental
Realizamos testes usando diferentes modelos e tarefas para ver como eles se saem com o persa. Focamos em usar prompts em persa e inglês para avaliar os modelos em várias condições.
Resultados e Observações
Visão Geral de Desempenho
Em nossas descobertas:
- Tarefas Clássicas: O GPT-4 se saiu bem, muitas vezes superando modelos anteriores. No entanto, o GPT-3.5 mostrou limitações, especialmente quando solicitado em persa.
- Tarefas de Raciocínio: O GPT-3.5 teve dificuldades, enquanto o GPT-4 mostrou melhorias com mais exemplos.
- Tarefas de Conhecimento: O GPT-4 demonstrou um conhecimento robusto sobre tópicos gerais, mas faltou profundidade na literatura persa.
Impacto da Língua do Prompt
Uma descoberta importante foi que usar prompts em inglês resultou em melhor desempenho em geral. Traduzir exemplos do persa para o inglês antes de inserir também levou a uma maior precisão nas respostas.
Desafios Enfrentados
Nosso estudo destacou alguns desafios na implementação de LLMs em contextos não ingleses.
- Recursos Limitados: O persa carece dos vastos conjuntos de dados disponíveis para o inglês, tornando o treinamento e a avaliação mais difíceis.
- Limitações do Modelo: Muitos modelos não se saíram como esperado ao serem solicitados a interpretar tarefas em persa diretamente.
Conclusão e Trabalho Futuro
A avaliação de LLMs em persa ainda está em seus estágios iniciais. Nossos resultados apontam para oportunidades significativas de melhorar o desempenho dos LLMs em idiomas com poucos recursos. Estudos futuros poderiam expandir os conjuntos de dados existentes e explorar tarefas mais avançadas.
Continuando a estudar como esses modelos funcionam em contextos não ingleses, podemos desenvolver melhores ferramentas para falantes de persa e aprimorar as capacidades multilíngues nas tecnologias de IA.
Agradecimentos
Agradecemos a todos os colaboradores que forneceram insights e dados para este estudo. O esforço colaborativo destaca a importância de trabalhar juntos para avanços em PLN.
Este estudo estabelece as bases para futuras investigações e aplicações relacionadas a grandes modelos de linguagem e sua eficácia em entender e gerar texto em persa.
Título: Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT
Resumo: This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. We present the first comprehensive benchmarking study of LLMs across diverse Persian language tasks. Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models. Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades. Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5. These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.
Autores: Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi, Yadollah Yaghoobzadeh
Última atualização: 2024-04-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.02403
Fonte PDF: https://arxiv.org/pdf/2404.02403
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/Ipouyall/Benchmarking_ChatGPT_for_Persian
- https://doi.org/10.48550/arxiv.2207.11808
- https://github.com/miras-tech/MirasText
- https://jon.dehdari.org/corpora
- https://www.kanoon.ir/Public/ExamQuestions
- https://sampad.gov.ir/
- https://huggingface.co/openchat/openchat
- https://huggingface.co/persiannlp/mt5-small-parsinlu-sentiment-analysis
- https://huggingface.co/persiannlp/mt5-base-parsinlu-sentiment-analysis
- https://huggingface.co/persiannlp/mt5-large-parsinlu-sentiment-analysis
- https://huggingface.co/persiannlp/wikibert-base-parsinlu-entailment
- https://huggingface.co/persiannlp/mt5-base-parsinlu-snli-entailment
- https://huggingface.co/persiannlp/mt5-large-parsinlu-snli-entailment
- https://huggingface.co/persiannlp/parsbert-base-parsinlu-entailment
- https://huggingface.co/persiannlp/mbert-base-parsinlu-entailment
- https://huggingface.co/FacebookAI/xlm-roberta-large
- https://huggingface.co/google-bert/bert-base-multilingual-cased
- https://huggingface.co/google/mt5-large
- https://huggingface.co/HooshvareLab/bert-fa-base-uncased-ner-arman
- https://huggingface.co/persiannlp/mt5-small-parsinlu-multiple-choice
- https://huggingface.co/persiannlp/mt5-base-parsinlu-multiple-choice
- https://huggingface.co/persiannlp/mt5-large-parsinlu-multiple-choice
- https://huggingface.co/persiannlp/mt5-small-parsinlu-arc-comqa-obqa-multiple-choice
- https://huggingface.co/persiannlp/mt5-base-parsinlu-arc-comqa-obqa-multiple-choice
- https://huggingface.co/persiannlp/mt5-large-parsinlu-arc-comqa-obqa-multiple-choice
- https://huggingface.co/persiannlp/mt5-small-parsinlu-squad-reading-comprehension
- https://huggingface.co/persiannlp/mt5-base-parsinlu-squad-reading-comprehension
- https://huggingface.co/persiannlp/mt5-large-parsinlu-squad-reading-comprehension
- https://huggingface.co/Toshifumi/distilbert-base-multilingual-cased-finetuned-emotion
- https://huggingface.co/MilaNLProc/xlm-emo-t
- https://github.com/AmirAbaskohi/Persian-Emotion-Detection-using-ParsBERT-and-Imbalanced-Data-Handling-Approaches
- https://huggingface.co/Toshifumi/bert-base-multilingual-cased-finetuned-emotion
- https://huggingface.co/persiannlp/mt5-small-parsinlu-opus-translation_fa_en
- https://huggingface.co/persiannlp/mt5-base-parsinlu-opus-translation_fa_en
- https://huggingface.co/persiannlp/mt5-large-parsinlu-opus-translation_fa_en
- https://huggingface.co/persiannlp/mt5-small-parsinlu-translation_en_fa
- https://huggingface.co/persiannlp/mt5-base-parsinlu-translation_en_fa
- https://huggingface.co/persiannlp/mt5-large-parsinlu-translation_en_fa