臨床アプリにおけるスペイン語NLPの進展
臨床タスクにおけるスペイン語モデルの調査とそのパフォーマンス。
― 1 分で読む
この調査は、スペイン語での臨床タスク向けに設計された言語モデルを調べるものです。臨床応用に焦点を当てた17のコーパスをレビューし、注目すべきスペイン語モデルを紹介します。3000以上のモデルがファインチューニングされ、その性能を比較しました。テストされたモデルとコーパスはすべて公開され、結果の独立した検証を可能にし、今後の進展を促進します。
電子健康記録(EHR)のデータ量が多いため、さまざまな研究機会が提供され、臨床実践が改善されます。臨床ノートのような非構造化データを構造化フォーマットに変換することで、データの質が向上し、効果的なクエリが可能になります。この構造化情報は、新しい診断ソリューション、患者の結果評価、リスク集団の特定など、さまざまな応用をサポートします。
EHRデータの処理には特定の課題があります。臨床的なナarrティブはしばしば急いで書かれ、さまざまなエラーや独自の専門用語を含むことがあります。これにより、一般的な言語と医療文脈内での言語使用の違いから、データの解釈が複雑になります。
自然言語処理におけるスペイン語
スペイン語は何百万もの話者がいて、世界で4番目に広く話されている言語だけど、自然言語処理(NLP)において十分なリソースが不足しています。たとえば、スペイン語に比べて英語のモデルやコーパスはずっと多いです。この不足は、特に臨床分野でのスペイン語NLPのためのリソースがもっと必要だということを示しています。
スペイン語は高い屈折性を持っていて、多様な形態論と構文があり、臨床テキストを処理する際に追加の障害を生む可能性があります。英語からスペイン語への翻訳もバリエーションやアングリズムを導入し、臨床分野での用語や理解を複雑にします。
研究の目的
この研究は、スペイン語の臨床テキストデータに利用可能なリソースをまとめ、モデルをベンチマークして性能ランクを確立することを目的としています。この目標を達成するために、いくつかのモデルの組み合わせをファインチューニングします。
過去の研究
過去10年でNLPは急速に進展し、Word2vecのような基本的なモデルから、PaLMのような数十億のパラメータを持つ複雑なアーキテクチャに移行しました。これらの改善は、臨床テキストを処理するために不可欠なニューラルネットワークの効果的なトレーニングを可能にするハードウェアの向上から来ています。
アノテーションなしのコーパス
コーパスはNLPにおいて重要で、ラベルなしで言語モデルの事前トレーニングを可能にします。しかし、EHRのような臨床データはプライバシーの懸念から公開されておらず、PubMedのようなバイオメディカルデータとは異なります。
関連するスペイン語の臨床コーパス
いくつかのスペイン語の臨床コーパスは注目に値します:
- スペイン臨床ケースコーパス(SPACCC):SciELOからの臨床ケースのコレクションで、トークンを含み、公開されています。
- ヨーロッパ臨床ケースコーパス(E3C):さまざまな臨床ケースが含まれた多言語データセットです。
- CANTEMIST:臨床テキストにおける腫瘍形態に焦点を当てたNERコーパスで、専門家によるアノテーションが行われています。
- CARES:ICD-10コードを階層的に分類する放射線レポートコーパスです。
- チリ待機リストコーパス(CWLC):匿名化された紹介が含まれ、アノテーションされたエンティティがあります。
- CodiEsp:幅広い臨床トピックにおけるマルチラベル分類に焦点を当てています。
- CT-EBM-SP:PubMedとSciELOからの要約で構成されたNERコーパスで、モデルの一般化を促進します。
スペイン語臨床コーパスの概要
いくつかの単語埋め込みが利用可能ですが、トランスフォーマーベースのモデルがより効果的であることが証明されています。BETOやMarIAのようなモデルは、スペイン語NLPで影響力のある結果をもたらす可能性を示しています。
- BETO:BERTアーキテクチャを持つ最初のスペイン語モデルで、役立つベースラインとなっています。
- MarIA:RoBERTaに基づいたこのモデルは、さまざまなタスクで素晴らしい性能結果を示しています。
- RigoBERTa:以前のアーキテクチャを基にした別の有望なモデルです。
公開ベンチマーク
この研究は、さまざまな評価指標を組み込んだ臨床スペイン語モデルの公開ベンチマークを提示します。ベンチマークに使用された最終モデルは、オープンサイエンス専用のプラットフォームでアクセス可能です。
評価と結果
私たちの結果では、RigoBERTa 2がトップパフォーマーとして浮かび上がり、さまざまなコーパスで一貫して強い結果を提供しました。この結果は、効果的なモデルパフォーマンスのために高品質なトレーニングデータの重要性を強調しています。
結論
質の高いスペイン語の臨床言語モデルにはかなりのギャップがあります。この調査は、この分野での追加のリソースとより良いモデルの必要性を強調しています。結果は、スペイン語NLP、特に臨床応用において大きな進展が求められていることを示しています。この研究は今後の改善のための基盤を築き、新しいスペイン語臨床言語モデルを評価するためのベンチマークを設定します。
タイトル: A Survey of Spanish Clinical Language Models
概要: This survey focuses in encoder Language Models for solving tasks in the clinical domain in the Spanish language. We review the contributions of 17 corpora focused mainly in clinical tasks, then list the most relevant Spanish Language Models and Spanish Clinical Language models. We perform a thorough comparison of these models by benchmarking them over a curated subset of the available corpora, in order to find the best-performing ones; in total more than 3000 models were fine-tuned for this study. All the tested corpora and the best models are made publically available in an accessible way, so that the results can be reproduced by independent teams or challenged in the future when new Spanish Clinical Language models are created.
著者: Guillem García Subies, Álvaro Barbero Jiménez, Paloma Martínez Fernández
最終更新: 2023-08-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.02199
ソースPDF: https://arxiv.org/pdf/2308.02199
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://docs.google.com/spreadsheets/d/16QglcHI0HlHRf_YzhUCKMGKxfDK_AbSLLK-dH8RHzKI/edit?usp=sharing
- https://zenodo.org/record/2560316
- https://live.european-language-grid.eu/catalogue/corpus/7618
- https://temu.bsc.es/BARR2/datasets.html
- https://zenodo.org/record/3978041
- https://huggingface.co/datasets/chizhikchi/CARES
- https://zenodo.org/record/7555181
- https://zenodo.org/record/3837305
- https://huggingface.co/datasets/lcampillos/ctebmsp
- https://zenodo.org/record/7614764
- https://github.com/ehealthkd/corpora/tree/master
- https://github.com/Vicomtech/NUBes-negation-uncertainty-biomedical-corpus
- https://huggingface.co/datasets/bigbio/meddocan
- https://zenodo.org/record/4270158
- https://zenodo.org/record/6803567
- https://huggingface.co/dccuchile/bert-base-spanish-wwm-cased
- https://huggingface.co/PlanTL-GOB-ES/roberta-large-bne
- https://huggingface.co/xlm-roberta-large
- https://huggingface.co/microsoft/mdeberta-v3-base
- https://platform.openai.com/docs/api-reference
- https://github.com/guilopgar/ClinicalCodingTransformerES
- https://huggingface.co/PlanTL-GOB-ES/bsc-bio-ehr-es
- https://github.com/iiconocimiento/survey-spanish-clinical-language-models
- https://huggingface.co/spaces/autoevaluate/leaderboards
- https://huggingface.co/IIC/BETO
- https://huggingface.co/IIC/XLM-R
- https://huggingface.co/IIC/roberta-large-bne-cantemist