BioMistralの紹介:新しい医療用言語モデル
BioMistralはオープンソース技術を使って医療の言語処理を進めようとしてるんだ。
― 1 分で読む
目次
言語モデル、つまり人間の言語を理解して生成できるコンピュータプログラムは、医療などの分野で重要になってきてるんだ。最近、誰でも無料で使えるオープンソースのモデルがたくさん開発されてる。これらのモデルは、医学を含むさまざまな分野で役に立つ。でも、一般的な言語モデルを医学的な文脈でうまく使うのは簡単じゃない。
この記事では、医療分野に特化して作られたオープンソースの言語モデルBioMistralを紹介するよ。BioMistralは、別の言語モデルMistralをベースにしてて、PubMed Centralからの大量の医療記事を使って特別にトレーニングされてるんだ。英語で10個の標準的な医療のQ&Aタスクを使ってテストしたし、簡単なデバイスで動作する小さなモデルも見たよ。結果を見てみると、BioMistralは他の無料の医療モデルよりもいいパフォーマンスを発揮してて、有料モデルとも競争できることがわかったんだ。さらに、評価タスクを7つの他の言語に翻訳して、BioMistralがどれくらい他の言語でも使えるか見てみたよ。
医療における言語モデルの役割
言語モデルは、コンピュータとのコミュニケーションを変えてる。複雑なリクエストを理解して応答できるから、いろんな作業に便利なんだ。ChatGPTやVicunaみたいなモデルの登場で、人間と機械のインタラクションが自然になってきたんだよ。
BLOOMやLLaMAのようなオープンソースモデルの開発は、これらのツールが医療などの専門的な領域でも役立つことを示してる。でも、医療の現場でこれらのモデルを使うのには特有の問題がある。一部のモデルはすでに医療で使われ始めてるけど、MedPaLM-2やGPT-4のようなプロプライエタリモデルではデータプライバシーに関する懸念があるんだ。
医療向けの専門的な言語モデルへの関心が新しい取り組みを生み出してるけど、無料の医療モデルの採用は限られてる。その主な理由の一つは、商業で使える小さなモデルが少なく、性能を落とさずに使えるものが必要だってこと。オープンソースフレームワークに基づき、通常のデバイス向けに最適化されたモデルが求められてるんだ。
BioMistral 7Bの紹介
BioMistral 7Bは、医療分野に特化して設計されてる。Mistral 7B Instructモデルをベースにしてて、PubMed Centralのリソースを使ってさらにトレーニングされてるんだ。ここでの私たちの作業の主な貢献は以下の通り:
BioMistral 7Bの構築:医療分野向けに設計されたMistralベースの初のオープンソースモデルを作った。数少ない例を使ったトレーニングや、教師ありの微調整など、さまざまな評価方法を見たよ。
新しい医療Q&Aベンチマーク:他の言語に翻訳された英語の医療Q&Aタスクのセットを紹介した。これで、モデルのパフォーマンスを確認しやすくなった。
詳細な分析:さまざまな言語で使用した際のモデルの真実性と信頼性を徹底的に分析したよ。
軽量モデル:既存モデルを異なる方法で量子化して合併した結果得られた小さなモデルを評価した。
新しいマージ技術:異なるモデルを組み合わせてパフォーマンスを向上させる新しい方法を探った。
すべてのデータ、多言語ベンチマーク、モデルはみんなが自由に使えるように公開されてるよ。
医療データでのプレトレーニング
言語モデルを医療に適応させるために、PMCオープンアクセスサブセットを選んだ。これには幅広い医療研究論文が含まれてて、自由に利用できるよ。この選択は、大量の医療研究を使うことでモデルのパフォーマンスを向上させることができるって以前のプロジェクトにインスパイアされたんだ。
準備段階では、ハードウェアの制限を考慮しつつ、トレーニング用のデータセットを効率的にすることに焦点を当てた。Mistralをさらにトレーニングするために、このデータセットの一部を使って、許可されたコンピューティングリソースの時間内でデータに対する特定のパス数をターゲットにしたんだ。約30億トークン、つまりテキストのピースを選び、約147万の記事に達した。
このデータセットの大部分は英語だけど、オランダ語、ドイツ語、フランス語などの他の言語の記事も含めたよ。この多言語アプローチに焦点を当てることで、多様な医療知識をカバーするトレーニングデータセットを作ることを目指したんだ。
モデルのトレーニング方法
トレーニングの基礎としてMistral 7B Instructモデルを使った。このモデルは、指示が必要なタスクに対応できるように設計されてて、さまざまなアプリケーション向けに微調整できるんだ。トレーニングでは、使用する最適化メソッド、学習率、バッチサイズといった特定のパラメータを設定したよ。
効率を上げるために、トークンをまとめる方法を使って、モデルが処理しなきゃいけないシーケンスの数を減らして、トレーニング時間を短縮したんだ。
モデルの評価
BioMistral 7Bを評価するために、医療知識に関連する10個のQ&Aタスクを選んだ。これらのタスクは、さまざまな医療専門分野をカバーしてて、現場のプロが直面するリアルなシナリオを提示してるんだ。
さらに、タスクをいくつかの言語に翻訳して多言語評価も行ったよ。これで、BioMistralが英語以外の文脈でどれくらいパフォーマンスを出すかを確認できた。各タスクのモデルの応答の正確性を確認するために、いくつかのテストを実施したよ。
結果と発見
評価の結果、BioMistral 7Bはほとんどのタスクで元のMistral 7B Instructモデルを上回るパフォーマンスを示したよ。少ない例のテストでも、BioMistral 7Bはほぼすべての分野で他の無料の医療モデルよりも良かった。たとえば、臨床知識、遺伝学、医療試験に関連するデータセットでのパフォーマンスが向上したんだ。
ただ、PubMedQAでは情報の提供に不均衡があって、うまくいかなかった場合もあったよ。
量子化モデルを見たときは、モデルのサイズを減らす異なる方法がパフォーマンスに異なる影響を与えることに気づいたんだ。いくつかは正確性を低下させたけど、他は維持したり、向上させたりもした。
多言語パフォーマンス
BioMistral 7Bが英語以外の言語でどれくらい機能するかも確認したよ。全体的にパフォーマンスは落ちたけど、これは翻訳の質が原因かもしれない。それでも、他のモデルと競争できるパフォーマンスは出てたんだ。
特定の言語を見ていくと、BioMistralは他の言語よりも良い結果を示したことがあり、さまざまな言語コンテキストに適応する際の改善の余地があることがわかったよ。
キャリブレーションと真実性
どんな言語モデルでも、情報を信頼できる形で表現し、その答えに対する確実性のレベルを示すことが重要なんだ。BioMistralが現実の結果とどれくらい一致しているかを評価したよ。分析の結果、BioMistralは特に健康関連トピックにおいて、真実の出力を提供するのが一般的に得意だってわかった。
でも、改善が必要な分野も見つかったよ。たとえば、真実性がテストされていることを示すプロンプトを提供したときはパフォーマンスが向上したけど、もっとリラックスした設定で使用したときにはパフォーマンスが落ちたんだ。
結論と今後の取り組み
BioMistral 7Bを医療タスク向けの専門的な言語モデルとして開発したよ。高品質な医療データで既存のモデルをさらにトレーニングすることで、さまざまなベンチマークで最先端のパフォーマンスを発揮できることを示したんだ。また、今後はBioMistralが生成するコンテンツの質を直接的な人間の評価を通じて評価していくつもりだよ。さらに、多言語機能を強化し、信頼性と正確性を向上させる取り組みも進めていく。
このプロジェクトにはかなりのコンピューティングリソースと財政的支援が必要だったから、今後の同様の取り組みにはリソースの計画と考慮が必要ってことも認識してるよ。BioMistral 7Bは、さらなる臨床での評価なしに直接的な医療応用には最適ではないってことも覚えておくべきだね。
BioMistralが医療応用のために信頼できる効果的なツールになるように取り組み続けて、医療における言語モデル使用の多くの課題に対処したいと思ってるよ。
異なるドメイン全体での言語モデルのさらなる評価の必要が続いてるし、特にセンシティブなコンテンツを責任を持って扱える能力についても重要だね。これからは、倫理やバイアス、有害なコンテンツの生成の可能性など、より深く調査していくつもりだよ。
これらの分野に注力することで、人間の言語を理解し生成するだけでなく、倫理基準にも沿った言語モデルを作りたいと思ってる。特に医療分野でね。
タイトル: BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains
概要: Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.
著者: Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour
最終更新: 2024-07-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.10373
ソースPDF: https://arxiv.org/pdf/2402.10373
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://huggingface.co/BioMistral
- https://github.com/BioMistral/BioMistral
- https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/
- https://gist.github.com/dvschultz/3af50c40df002da3b751efab1daddf2c
- https://www.idris.fr/media/jean-zay/jean-zay-conso-heure-calcul.pdf
- https://www.edari.fr/documents/Modalitesdacces.pdf