Nuovi modelli di lingua ebraica lanciati
Adesso ci sono due modelli linguistici avanzati per l'ebraico moderno e rabbinico.
― 5 leggere min
Indice
Recentemente è stato sviluppato un nuovo Modello di Linguaggio per l'ebraico moderno. Questo modello, che ha 7 miliardi di parametri, è principalmente addestrato su dati focalizzati sulla lingua ebraica. L'obiettivo è supportare la ricerca e migliorare gli strumenti per i parlanti ebraici. Insieme a questo modello, è stato introdotto anche un altro specifico per l'ebraico rabbinico/storico. Questi modelli sono progettati per aiutare in vari compiti come seguire Istruzioni, rispondere a domande e analisi del sentiment.
Perché Questo Modello È Importante
I modelli di linguaggio hanno cambiato il modo in cui usiamo la tecnologia per compiti come comprendere testi e tradurre lingue. La maggior parte dei modelli avanzati disponibili oggi si concentra su lingue parlate da molte persone, lasciando molte altre, come l'ebraico, meno rappresentate. Questo nuovo modello di linguaggio mira a colmare quel divario per l'ebraico moderno, oltre a fornire una risorsa per chi è interessato all'ebraico rabbinico.
Costruzione del Modello
Per creare questo modello, è stato raccolto un grande volume di dati: circa 7,5 miliardi di token da varie fonti. Questi dati provengono da contenuti originali, senza aggiungere informazioni artificiali o inventate. La prima parte prevede la raccolta e la pulizia dei dati, mentre la seconda si concentra sul fine-tuning con set di dati specifici orientati a domande e risposte in ebraico.
Fonti dei Dati di Pre-Addestramento
I dati principali di addestramento si compongono di diverse parti:
Dataset C4 (80%): Questa è una versione pulita di un precedente corpus ebraico, da cui è stato rimosso circa il 15% del contenuto per migliorare la qualità. Il processo di pulizia ha coinvolto l'eliminazione di frasi mal costruite e la conservazione solo di parole ebraiche e inglesi, mentre le altre lingue sono state contrassegnate come straniere.
Altre Fonti (20%): Sono stati inclusi anche vari materiali come articoli di notizie, blog, sottotitoli di film e libri. Anche questi dati sono passati attraverso lo stesso processo di pulizia per garantire la qualità, aggiungendo fino a 1,5 miliardi di token.
Dati di Istruzione
Per insegnare al modello come seguire diversi tipi di istruzioni, sono stati utilizzati due set di dati principali:
Dataset QA: Questo coinvolge la creazione di prompt basati su istruzioni in cui al modello viene chiesto di leggere un paragrafo e rispondere a una domanda su di esso. Le istruzioni variano per aiutare il modello a fornire diversi tipi di risposte.
MPT Istruzione Tradotto: Per questo set di dati, un altro set di istruzioni è stato tradotto in ebraico e adattato per aiutare il modello a rispondere a domande senza una struttura rigida.
Struttura del Modello
Una delle sfide affrontate è stata la Tokenizzazione, che è il modo in cui il testo viene suddiviso in parti gestibili. Poiché l'ebraico non è così comune nei modelli multilingue esistenti, è stata prestata particolare attenzione per assicurarsi che le parole ebraiche fossero ben rappresentate. Il tokenizer utilizzato consente un buon equilibrio tra parole ebraiche e inglesi.
L'architettura del modello è basata su un framework transformer, noto per la sua efficacia nell'elaborazione del linguaggio. Sono stati apportati diversi miglioramenti per ottimizzare l'addestramento e le prestazioni del modello.
Caratteristiche Chiave
Tecnica di Normalizzazione: Per rendere l'addestramento più fluido, l'input viene normalizzato in varie fasi.
Funzione di Attivazione: Viene utilizzata una funzione specifica chiamata GeLU, nota per la sua efficacia in questi tipi di modelli.
Pesi Separati: Separando i pesi di Embedding e output, il modello può performare meglio.
Processo di Addestramento
L'addestramento è stato effettuato utilizzando strumenti avanzati specializzati per calcoli ad alte prestazioni. Il modello è stato pre-addestrato su otto potenti GPU, durato circa 150 ore, e poi fine-tuned per comprendere le istruzioni per altre otto ore. Il processo di addestramento ha utilizzato impostazioni efficienti per massimizzare le prestazioni.
Modello Aggiuntivo per l'Ebraico Rabbinico
Oltre al modello principale per l'ebraico moderno, è stato sviluppato anche un altro modello per l'ebraico rabbinico. Questo modello contiene un ampio insieme di testi in ebraico rabbinico ed è stato creato utilizzando lo stesso approccio del modello per l'ebraico moderno. Il corpus di addestramento include una miscela di ebraico moderno e rabbinico, garantendo una comprensione ben arrotondata di entrambe le forme.
Considerazioni Etiche
È importante notare che il modello è stato addestrato utilizzando una vasta gamma di dati, il che significa che potrebbe generare contenuti che possono essere visti come offensivi o parziali da alcuni utenti. Questo evidenzia la necessità di un uso attento del modello e di aggiustamenti continui.
Stato Attuale
Il progetto è ancora nelle fasi iniziali e, mentre i modelli vengono rilasciati per l'uso pubblico, potrebbero non soddisfare ancora i più elevati standard di settore. Tuttavia, servono come punto di partenza per i ricercatori che vogliono migliorare gli strumenti linguistici in ebraico.
Conclusione
In sintesi, questo nuovo rilascio include modelli fondamentali sia per l'ebraico moderno che per quello rabbinico, insieme a una versione ottimizzata per le istruzioni. Questi modelli mirano a supportare e favorire la crescita nella tecnologia linguistica ebraica, fornendo risorse preziose per ricercatori e sviluppatori. I modelli possono essere utilizzati come punti di partenza per vari compiti specifici e adattamenti nel campo dell'elaborazione del linguaggio naturale in ebraico.
Titolo: Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew
Estratto: We present DictaLM, a large-scale language model tailored for Modern Hebrew. Boasting 7B parameters, this model is predominantly trained on Hebrew-centric data. As a commitment to promoting research and development in the Hebrew language, we release both the foundation model and the instruct-tuned model under a Creative Commons license. Concurrently, we introduce DictaLM-Rab, another foundation model geared towards Rabbinic/Historical Hebrew. These foundation models serve as ideal starting points for fine-tuning various Hebrew-specific tasks, such as instruction, Q&A, sentiment analysis, and more. This release represents a preliminary step, offering an initial Hebrew LLM model for the Hebrew NLP community to experiment with.
Autori: Shaltiel Shmidman, Avi Shmidman, Amir David Nissan Cohen, Moshe Koppel
Ultimo aggiornamento: 2023-09-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.14568
Fonte PDF: https://arxiv.org/pdf/2309.14568
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://creativecommons.org/licenses/by-sa/4.0/
- https://huggingface.co/datasets/mosaicml/dolly_hhrlhf
- https://platform.openai.com/tokenizer
- https://github.com/NVIDIA/apex
- https://github.com/NVIDIA/NeMo
- https://github.com/NVIDIA/TransformerEngine
- https://www.sefaria.org.il/
- https://library.dicta.org.il/
- https://huggingface.co/dicta-il/dictalm-7b
- https://huggingface.co/dicta-il/dictalm-7b-instruct
- https://huggingface.co/dicta-il/dictalm-rab-7b