Progressi nei modelli di lingua ebraica: DictaLM 2.0
Presentiamo DictaLM 2.0 e DictaLM 2.0-Instruct per un'elaborazione migliorata della lingua ebraica.
― 6 leggere min
Indice
- Sfide nell’Addestramento degli LLM per l’Ebraico
- Introduzione di DictaLM 2.0 e DictaLM 2.0-Instruct
- Nuovi Metodi di Valutazione per gli LLM Ebraici
- L'Importanza della Valutazione
- Valutazione Automatica
- Valutazione Umana
- Valutazione della Sintesi
- Apprendere dai Modelli Precedenti
- Raccolta Dati per l'Addestramento
- Processo di Addestramento
- Fine-Tuning Istruttivo e Miglioramenti Finali
- Contributi al Campo dell'NLP
- Conclusione
- Fonte originale
- Link di riferimento
Addestrare modelli di linguaggio di grandi dimensioni (LLMs) per lingue con meno dati disponibili, come l'ebraico, presenta sfide specifiche. Questo articolo parla dello sviluppo di DictaLM 2.0 e DictaLM 2.0-Instruct, due modelli di linguaggio avanzati progettati per funzionare meglio con l'ebraico. Questi modelli sono stati creati dal modello Mistral e addestrati su una grande quantità di dati, circa 200 miliardi di token, sia in ebraico che in inglese.
Sfide nell’Addestramento degli LLM per l’Ebraico
Lingue come l’ebraico possono essere complicate per gli LLM a causa dei dati limitati e delle strutture complesse. L’ebraico ha caratteristiche grammaticali ricche, ma non ci sono abbastanza dataset sostanziali. Questo rende difficile addestrare modelli efficaci. Inoltre, il processo di scomposizione dell’ebraico in parti gestibili, noto come Tokenizzazione, spesso non è adatto per una lingua con meno risorse. Questo porta a scarse prestazioni quando si usano modelli standard non progettati per l’ebraico.
Introduzione di DictaLM 2.0 e DictaLM 2.0-Instruct
Per affrontare queste problematiche, abbiamo creato DictaLM 2.0 e DictaLM 2.0-Instruct, pensati specificamente per l’ebraico. Sono stati costruiti sul modello Mistral e addestrati su un mix equilibrato di dati in ebraico e inglese. Adattare questi modelli ha comportato l'uso di metodi specifici diversi dall'addestramento da zero. Questo ha incluso l'aggiunta di token concentrati sull'ebraico al tokenizer del modello e il fine-tuning del sistema per assicurarsi che possa apprendere efficacemente.
Per DictaLM 2.0-Instruct, abbiamo ulteriormente raffinato il modello utilizzando un dataset speciale mirato ad aiutarlo a seguire meglio istruzioni specifiche. Questo fine-tuning è stato cruciale per migliorare le prestazioni del modello nei compiti.
Valutazione per gli LLM Ebraici
Nuovi Metodi diPer valutare adeguatamente questi nuovi modelli, abbiamo creato una suite di benchmark specifica per la valutazione dei modelli di lingua ebraica. Questa suite include vari compiti come rispondere a domande, analizzare sentimenti, traduzione e sintesi. Attraverso questa valutazione, abbiamo scoperto che DictaLM 2.0 e DictaLM 2.0-Instruct hanno mostrato prestazioni eccezionali, stabilendo un nuovo standard per l'elaborazione del linguaggio in ebraico.
L'Importanza della Valutazione
La valutazione è fondamentale nello sviluppo dei modelli. Aiuta a controllare quanto bene funzioni un modello in varie situazioni. L'obiettivo principale è garantire che il modello sia affidabile ed efficace. Poiché all'inizio non c'erano molti strumenti di valutazione pertinenti per i modelli ebraici, abbiamo sviluppato i nostri metodi di misurazione e dataset.
Valutazione Automatica
Il nostro metodo di valutazione automatica utilizza un approccio di few-shot learning, dove al modello vengono forniti pochi esempi e si chiede di rispondere. Questo semplifica la misurazione delle prestazioni in diverse attività. Abbiamo creato vari compiti di valutazione per testare diverse abilità:
Risposta a Domande in Ebraico: Verifica quanto bene il modello riesca a comprendere l'ebraico e a fornire risposte accurate in base al contesto.
Analisi del Sentiment: Qui, il modello deve identificare se i testi esprimono sentimenti positivi, negativi o neutri.
Winograd Schema Challenge: Questo test verifica la capacità del modello di risolvere pronomi e ambiguità nelle frasi.
Traduzione: Valuta quanto bene il modello traduce tra ebraico e inglese mantenendo il significato.
Questi compiti ci permettono di valutare le prestazioni complessive di DictaLM 2.0 e DictaLM 2.0-Instruct rispetto ad altri modelli all'avanguardia.
Valutazione Umana
La valutazione umana è un altro metodo per misurare le prestazioni del modello. In questo metodo, persone che confrontano le traduzioni dei nostri modelli con quelle prodotte da strumenti come Google Translate forniscono feedback preziosi. Questo riscontro può mostrare come i modelli funzionano in scenari reali.
Abbiamo condotto test in cui valutatori umani esaminavano le traduzioni di entrambi i modelli e selezionavano quella migliore. I risultati hanno mostrato una forte preferenza per le traduzioni del nostro modello, indicandone l'efficacia nel produrre lavoro di alta qualità.
Valutazione della Sintesi
Per misurare quanto bene i modelli sintetizzano le informazioni, abbiamo utilizzato una raccolta di documenti di notizie in ebraico abbinati a sintesi create da esseri umani. Ogni modello è stato testato sulla sua capacità di sintetizzare questi documenti. Per questa valutazione, abbiamo usato un sistema di punteggio basato sulla pertinenza, coerenza, consistenza e fluidità delle sintesi.
I punteggi hanno evidenziato come entrambi DictaLM 2.0 e DictaLM 2.0-Instruct si confrontassero con modelli noti di grandi aziende. Anche se non erano ancora al livello dei modelli proprietari, i nostri modelli hanno mostrato prestazioni solide e servono come forti alternative open-source.
Apprendere dai Modelli Precedenti
Lo sviluppo di DictaLM 2.0 e DictaLM 2.0-Instruct ha beneficiato delle lezioni apprese dall'adattamento di altri modelli a lingue diverse. Ad esempio, alcuni progetti hanno esteso i tokenizer dei loro modelli per includere token specifici per una nuova lingua, migliorando notevolmente le prestazioni. Il nostro approccio ha combinato varie strategie per garantire che adottassimo i migliori metodi.
Raccolta Dati per l'Addestramento
La raccolta di dati è stata una parte significativa della costruzione di questi modelli. Abbiamo raccolto testi in ebraico da una vasta gamma di fonti, tra cui internet, social media, notizie e vari libri ebraici. Il dataset è stato poi pulito e filtrato per garantire alta qualità.
Un attento processo di pulizia ha aiutato a rimuovere informazioni irrilevanti e dati di bassa qualità. Questo ha incluso la sostituzione di testi stranieri, la rimozione di caratteri indesiderati e l'eliminazione di duplicati.
Processo di Addestramento
L'addestramento dei nostri modelli ha coinvolto più fasi. Inizialmente, abbiamo utilizzato un modello all'avanguardia esistente come punto di partenza. Questo approccio fa risparmiare tempo e risorse. Poi, abbiamo adattato il tokenizer per gestire meglio l'ebraico assicurandoci che il modello potesse adattarsi efficacemente.
Una volta impostato il tokenizer, abbiamo iniziato un pre-addestramento continuo su un ampio dataset. Questa fase ha consentito al modello di apprendere da molti dati non supervisionati. L'addestramento è avvenuto su un lungo periodo per affinare attentamente le capacità del modello.
Fine-Tuning Istruttivo e Miglioramenti Finali
Dopo aver creato DictaLM 2.0, siamo passati a perfezionarlo attraverso un processo di fine-tuning istruttivo. Questo ha comportato l'addestramento del modello su un dataset contenente istruzioni e corrispondenti risposte. Questo passaggio è stato essenziale per rendere il modello più reattivo e capace di seguire richieste specifiche.
Per finalizzare il modello, abbiamo applicato l'ottimizzazione della preferenza diretta (DPO), migliorando la sua capacità di generare risposte contestualmente consapevoli basate sul feedback degli utenti. Integrando input reali degli utenti, abbiamo garantito che il modello possa adattarsi e migliorare continuamente.
Contributi al Campo dell'NLP
Con l'introduzione di DictaLM 2.0 e DictaLM 2.0-Instruct, stiamo dando contributi significativi al campo dell'elaborazione del linguaggio naturale ebraico. I nostri metodi e valutazioni stabiliscono nuovi standard per gli LLM ebraici, affrontando le sfide che le lingue a bassa risorsa devono affrontare.
Abbiamo anche creato una classifica pubblica per gli LLM ebraici, permettendo ai ricercatori di confrontare e valutare i propri modelli facilmente. Questo promuove la collaborazione e ulteriore sviluppo all'interno della comunità, portando infine a una tecnologia migliorata per l'elaborazione del linguaggio ebraico.
Conclusione
Lo sviluppo di DictaLM 2.0 e DictaLM 2.0-Instruct rappresenta un passo significativo avanti nel campo dell'elaborazione del linguaggio naturale ebraico. Affrontando le specifiche sfide poste dall'ebraico e da altre lingue a bassa risorsa, abbiamo creato modelli che offrono alte prestazioni e usabilità.
I nuovi metodi di valutazione e le risorse fornite contribuiscono alla ricerca e innovazione continua in quest'area. Il nostro lavoro sostiene una spinta più ampia verso migliori tecnologie linguistiche, promuovendo la diversità e l'inclusione nel campo.
Titolo: Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
Estratto: Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.
Autori: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
Ultimo aggiornamento: 2024-07-09 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.07080
Fonte PDF: https://arxiv.org/pdf/2407.07080
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/huggingface/optimum-habana
- https://huggingface.co/dicta-il/dictalm2.0
- https://github.com/huggingface/alignment-handbook/tree/main/recipes/zephyr-7b-beta
- https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k
- https://huggingface.co/dicta-il/dictalm2.0-instruct
- https://translate.dicta.org.il
- https://cookbook.openai.com/examples/evaluation/how_to_eval_abstractive_summarization
- https://huggingface.co/spaces/hebrew-llm-leaderboard/leaderboard