新しいヘブライ語の言語モデルが発表されたよ。
現代ヘブライ語とラビニックヘブライ語のための2つの高度な言語モデルが利用可能になったよ。
― 1 分で読む
最近、現代ヘブライ語の新しい言語モデルが開発されたんだ。このモデルは70億のパラメータを持ってて、主にヘブライ語に焦点を当てたデータでトレーニングされてる。目的はヘブライ語を話す人たちの研究をサポートしたり、ツールを改善したりすること。これに加えて、ラビニック/歴史的ヘブライ語専用のモデルも登場したよ。これらのモデルは、指示に従ったり、質問に答えたり、感情分析をしたりするために設計されてる。
このモデルが重要な理由
言語モデルは、テキストを理解したり言語を翻訳したりする技術の使い方を変えてきた。今ある多くの高度なモデルは、たくさんの人に話されている言語に焦点を当てていて、ヘブライ語みたいな他の言語はあまり代表されてない。今回の新しい言語モデルは、現代ヘブライ語のギャップを埋めることを目指してて、ラビニックヘブライ語に興味がある人にリソースも提供するんだ。
モデルの構築
このモデルを作るために、大量のデータが集められた-約75億トークンがいろんなソースから集められたよ。このデータはオリジナルの内容から来てて、人工的な情報は追加されてない。最初のステップはデータを集めて掃除することで、次のステップはヘブライ語の質問と回答に特化したデータセットで微調整すること。
プレトレーニングデータソース
主なトレーニングデータは数つの部分から成り立ってる:
C4データセット(80%): これは以前のヘブライ語コーパスのクリーンバージョンで、約15%の内容が質を向上させるために削除された。掃除のプロセスでは、あまりに構造の悪い文を排除して、ヘブライ語と英語の単語だけを残したんだ。他の言語は外国語としてマークされた。
その他のソース(20%): ニュース記事、ブログ、映画の字幕、本など、いろんな素材も含まれてる。このデータも同じ掃除プロセスを経て、合計で15億追加トークンになった。
インストラクトデータ
モデルにいろんな指示の従い方を教えるために、二つの主要なデータセットが使われた:
QAデータセット: これはモデルにパラグラフを読ませて、その内容についての質問に答えさせる指示ベースのプロンプトを設定することが含まれてる。指示は異なってて、モデルがいろんなタイプの応答を提供できるようにしてる。
翻訳されたMPTインストラクト: このデータセットでは、別の指示データセットがヘブライ語に翻訳されて、モデルが硬い構造なしで質問に答えられるように調整された。
モデル構造
直面した課題の一つはトークン化で、これはテキストを管理しやすい部分に分ける方法。ヘブライ語は既存の多言語モデルではあまり使われてないから、ヘブライ語の単語をしっかり表現するように特別に気を使ったんだ。使われてるトークナイザーはヘブライ語と英語の単語のバランスが良くなるようにしてる。
モデルのアーキテクチャはトランスフォーマーフレームワークに基づいてて、これは言語を処理するのに効果的でよく知られてる。モデルのトレーニングとパフォーマンスを向上させるために多数の改善が行われたよ。
主な特徴
正規化技術: トレーニングをスムーズにするため、入力はさまざまな段階で正規化されてる。
活性化関数: GeLUと呼ばれる特定の関数が使われてて、こういうモデルに効果的なんだ。
別々の重み: 埋め込みと出力の重みを分けることで、モデルのパフォーマンスが良くなる。
トレーニングプロセス
トレーニングは高性能計算に特化した先進的なツールを使って行われた。モデルは8台の強力なGPUで約150時間プレトレーニングされ、その後8時間指示理解のための微調整が行われた。トレーニングプロセスは効率的な設定を利用してパフォーマンスを最大化したよ。
ラビニックヘブライ語の追加モデル
現代ヘブライ語用の主なモデルに加えて、ラビニックヘブライ語用の別のモデルも開発された。このモデルは大量のラビニックヘブライ語テキストを含んでて、現代ヘブライ語モデルと同じアプローチで作られた。トレーニングコーパスは現代とラビニックヘブライ語の混合で、両方の形式をしっかり理解できるようになってる。
倫理的考慮
このモデルは幅広いデータを使ってトレーニングされたから、ユーザーによっては攻撃的または偏見のあるコンテンツを生み出す可能性があることに注意が必要だ。これはモデルの慎重な使用と継続的な調整の必要性を示してる。
現在の状況
プロジェクトはまだ初期段階で、モデルは一般公開されてるけど、業界の最高基準には達してないかもしれない。でも、ヘブライ語の言語ツールを改善したい研究者にとってはスタート地点になるんだ。
結論
要するに、この新しいリリースには現代ヘブライ語とラビニックヘブライ語の基盤モデル、さらにインストラクト調整バージョンが含まれてる。このモデルはヘブライ語の技術の成長をサポートし、研究者や開発者に貴重なリソースを提供することを目指してる。モデルはヘブライ語の自然言語処理の分野で、さまざまな特定のタスクや適応のための出発点として使えるよ。
タイトル: Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew
概要: We present DictaLM, a large-scale language model tailored for Modern Hebrew. Boasting 7B parameters, this model is predominantly trained on Hebrew-centric data. As a commitment to promoting research and development in the Hebrew language, we release both the foundation model and the instruct-tuned model under a Creative Commons license. Concurrently, we introduce DictaLM-Rab, another foundation model geared towards Rabbinic/Historical Hebrew. These foundation models serve as ideal starting points for fine-tuning various Hebrew-specific tasks, such as instruction, Q&A, sentiment analysis, and more. This release represents a preliminary step, offering an initial Hebrew LLM model for the Hebrew NLP community to experiment with.
著者: Shaltiel Shmidman, Avi Shmidman, Amir David Nissan Cohen, Moshe Koppel
最終更新: 2023-09-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.14568
ソースPDF: https://arxiv.org/pdf/2309.14568
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://creativecommons.org/licenses/by-sa/4.0/
- https://huggingface.co/datasets/mosaicml/dolly_hhrlhf
- https://platform.openai.com/tokenizer
- https://github.com/NVIDIA/apex
- https://github.com/NVIDIA/NeMo
- https://github.com/NVIDIA/TransformerEngine
- https://www.sefaria.org.il/
- https://library.dicta.org.il/
- https://huggingface.co/dicta-il/dictalm-7b
- https://huggingface.co/dicta-il/dictalm-7b-instruct
- https://huggingface.co/dicta-il/dictalm-rab-7b