APCalignで植物名の一致を簡素化する
新しいツールがオーストラリアの植物名を標準に合わせるのを簡単にしてくれるよ。
― 1 分で読む
目次
分類学的な名前はオンライン研究において重要な役割を果たしてるんだ。それらは生き物についてのさまざまなアイデアをつなげてくれて、どんな種が存在するのか、どこにいるのか、どう関連しているのか、どんな特徴があるのかを示すんだ。でも、時にはそのつながりが壊れたり、見過ごされたりすることもあるんだ。これは、異なるデータセットが種を定義したり名前を付けたりする方法が一貫してないからよく起こる。だから、科学者たちは特定の種の名前や分類について必ずしも一致しないことがあるんだ。
ある瞬間に種に与えられる科学名は、その進化的な背景についてどれだけ知っているかを反映している。研究者が種の特徴、たとえば物理的な特性や遺伝的な構成についてもっと学ぶと、その名前が変わることもある。間違いも入り込むことがあって、名前が間違って綴られたり、タイプミスがあったりすることがよくある。多くの種のレビューでは、こうしたエラーを見つけるのが難しいこともあるんだ。
科学名、その関連する種の概念、そしてそれに関するデータのつながりを追跡するためには、さまざまなユーザーが自動的に古いまたは不正確な科学名を現在受け入れられている名前にマッチングして更新することが重要なんだ。
種名をマッチングするためのツール
種名の不一致の問題を解決するために多くのソフトウェアツールが作られてきたんだ。これらのツールは異なる分類学データセットに依存している。でも、その中でオーストラリアの維管束植物のための全国種リストに特化したものはないんだ。通常、これらのツールは種名のリストを受け取り、最もよく一致する受け入れられた名前のリストを返すんだ。種名の最適な一致を見つけるのは複雑で時間がかかることもあるけれど、現代のツールはかなり効率的にそれを実行できるようになってるんだ。
ツールにはさまざまな機能やフォーマットがある。一部は税onomic名解決サービスのようにウェブブラウザーを通じて簡単にアクセスできるけど、他は「taxize」というRパッケージのように、もっと専門的なソフトウェアパッケージだ。これらのグローバルツールはオーストラリアの種名にも対応しているけど、使用している分類情報が国内リストと一致しない場合があるんだ。というのも、異なる組織がそれらを管理していて、それぞれ独自のガイドラインがあるから。
オーストラリアの植物基準
オーストラリアでは、維管束植物の命名に関する受け入れられた標準はオーストラリア植物センサス(APC)なんだ。これは、オーストラリア植物名インデックス(APNI)に見られる広範な植物名リストによって維持されている。APCはオーストラリアの主要な植物コレクションからの意見を取り入れて作成され、定期的に更新されている。このレビュー過程では、新しい植物種や植物の分類の変化が分析されるんだ。
APCとAPNIは国際的なチェックリストと常に一致するわけではないけど、各チェックリストが異なる名前や分類を使用することがあるから。オーストラリアのリストは特に重要で、世界的なリストには含まれていない多くのユニークな名前が含まれているんだ。
オーストラリアの植物分類学におけるユニークな名前は、正式に記述されていない種に与えられることが多いんだ。これらの名前は特定のパターンに従っていて、属名、ランクインジケーター、説明、収集者の名前、そして標本に関連する参照番号を含むんだ。APCは公式な国家リストだから、オーストラリアの維管束植物の情報を文書化するための主な焦点になっているんだ。
APCalignの紹介
APCやAPNIで受け入れられた種概念と植物名をマッチングするユーザーを支援するために、「APCalign」という新しいソフトウェアツールが開発されたんだ。このツールは、上級ユーザー向けのRパッケージとしても、使いやすいウェブインターフェースとしても機能できるようになってる。二段階のプロセスで、名前をAPC/APNIに一致させるんだ。
最初のステップでは、「APCalign」が各入力名をAPC/APNI内の最適な対応名に合わせるんだ。これは種や科など、異なるレベルで名前をマッチングすることができる。二番目のステップでは、一致した名前を現在受け入れられている名前に更新するんだ。ツールは、正確な接続を最大化するために、直接一致やファジーマッチを含むさまざまな高度なアルゴリズムを使用しているんだ。
「APCalign」は分類名の複雑さに対処できるように作られていて、一致した名前の分布や原産状況などの追加情報も提供できるようになってる。リソースをダウンロードしたり、名前をクリーンにして整列させたり、分類分布に関する情報をまとめたりするためのいくつかの機能を含んでるんだ。
分類学的な名前の処理
「APCalign」が使用する分類学データは、オーストラリアの全国種リストから来ていて、特に維管束植物に特化しているんだ。APCには、受け入れられた名前や同義語のような代替ステータスの名前を含む、承認された種の分類のリストが含まれているんだ。
ツールを通じて、ユーザーはこれらの分類学的リソースを読み込むことができ、ソフトウェアが正確に名前を処理できるようになってる。元の名前をAPCやAPNIの最適な一致に正しく整列させるために、いくつかの要因が考慮されるんだ。名前のフォーマットや、ファジーマッチを実行するべきかどうかも含まれているんだ。
ソフトウェアは、名前を標準化したり、認識された名前と入力名を整列させたり、受け入れられた分類に名前を更新するための機能を提供するんだ。ユーザーは簡単なステップで整列された最新の名前を取得できるから、複数のステージを経る必要がないんだ。
名前の標準化
名前を受け入れられた分類にマッチングする前に、「APCalign」はそれらを標準化するんだ。これは、最良の一致を見つけるために元の名前の異なるバージョンを作成することを意味するんだ。たとえば、不必要な単語を取り除いて、きれいで正確な名前を確保するために略語や指標を標準化するんだ。
標準化の後、各名前はマッチングプロセスを経て、APC/APNI内の最適な対応名に結びつけられるんだ。このプロセスでは、まず正確な一致を確認するためにいくつかのアルゴリズムを使用し、必要に応じてより不正確なファジーマッチに移行するんだ。
ソフトウェアは、各名前に対して最良の一致が見つかるまでチェックを続けるんだ。もし見つからなければ、その名前が属などの広い分類カテゴリーにしかリンクできなかったことを記録するんだ。
名前の更新
一度名前がマッチングされたら、「APCalign」はそれを現在受け入れられている名前に更新できるんだ。これは重要で、科学名は変わることがあるから。プログラムには、名前が正しく更新されるだけでなく、代替名や同義語も提供されることを保証する機能があるんだ。
各整列された名前に対して、ユーザーは受け入れられた名前、他の名前の提案、および元のデータソースに戻るための識別子を含む出力を得るんだ。この体系的な更新は、オーストラリアの植物分類に関する明確で最新の理解を維持するのに役立つんだ。
分布の理解
APCは、州における種の分布や、原産か導入かに関する重要な情報を提供するんだ。これは生物多様性を理解する上で重要なんだ。ソフトウェアには、ユーザーが種の分布状況と異なる地域における多様性を分析できる機能が含まれているんだ。
たとえば、ユーザーは特定の地域からどの植物が起源で、どれが新しい環境に適応して成功しているのかを見ることができるんだ。この情報は、気候変動や植物種の移動を考慮すると特に有用なんだ。
パフォーマンスと他のツールとの比較
「APCalign」は、さまざまな植物名のリストを効果的に標準化し、整列させるために設計されたんだ。テストでは、APCの名前との成功率が高かったことが示されていて、使用されているアルゴリズムの効果を示しているんだ。異なる生態学的研究からのほとんどの名前が、APC内の受け入れられた名前に正確にリンクされたんだ。
このツールは、「TNRS」や「taxize」のような他の既存のグローバルプログラムと比較されたんだ。これらのツールもマッチングやファジーアルゴリズムのような重要な機能を提供するけど、「APCalign」はオーストラリアの文脈に特に焦点を当てているから、ユニークなんだ。
すべての比較されたツールは名前の更新を許容しているけど、「APCalign」はオーストラリアの植物名やその分類の特有のニュアンスを管理できるから際立っているんだ。名前が属や種のレベルに一致しているかどうかを明確に示す能力は、ユーザーが結果をよりよく理解するのを助ける追加の利点なんだ。
様々なユーザーへのサービス
「APCalign」は、専門の研究者と技術に詳しくないユーザーの両方を考慮して作られたんだ。プログラミングにあまり精通していない人のために、シンプルなインターフェースを提供する「APCalign」のウェブアプリケーションがあるんだ。ユーザーは、シンプルなインターフェースを通じて植物名を簡単に入力したり、ファイルをアップロードしたりできるんだ。ツールはその後、名前を処理して整列された最新の名前を返し、それらをダウンロードしてさらに利用できるようになるんだ。
このアクセシビリティに焦点を当てることで、植物の分類名が植物コミュニティ内で一貫して使用されることを確保しているんだ。
結論
オーストラリアの研究者たちは、最新の知識を反映するために定期的に更新される信頼できるリソース、つまりAPCにアクセスできることに恵まれているんだ。「APCalign」は、ユーザーが受け入れられている基準に従って植物名をマッチングして更新するのを容易にする革新的なツールなんだ。これは研究プロジェクトや生物多様性評価、育苗業などにおいて重要なリソースとして機能し、国レベルでの明確なコミュニケーションを促進するんだ。
分類学的マッチングのためのグローバルツールは存在するけど、APCに特化したものはないんだ。これはオーストラリアの植物命名に存在するユニークな課題を考慮しているから。「APCalign」を使えば、ユーザーは自分の研究が国家基準に沿っていることを確認できるし、オーストラリアの豊かな植物多様性に効果的に対応するために設計されたツールを利用できるんだ。分類学の知識が進化するにつれて、「APCalign」のようなツールは、研究者が信頼できる植物名や分類情報に接続され続けるために重要な役割を果たし続けるだろうね。
タイトル: APCalign: an R package workflow and app for aligning and updating flora names to the Australian Plant Census
概要: Here we present "APCalign", an R package and accompanying browser-sourced application to align and update scientific names for Australian vascular plants to the most likely currently accepted name using the Australian Plant Census (APC) or a name in the Australian Plant Names Index (APNI). Scientific names are the label assigned to unique taxon concepts by the scientific community, but this common terminology is most useful if a taxon concept is consistently referred to by the same name. These links can be broken due to either spelling mistakes or taxonomic changes. Automated tools are required to resolve taxon lists, aligning and updating long lists of possibly erroneous scientific names to the most likely currently accepted names. It is essential that tools specific to the APC/APNI be developed, as these lists specify an endorsed national-level nomenclature used in government legislation and include the uniquely Australian concept of phrase names, absent in global taxonomic datasets. To align input names to names within the APC or APNI, "APCalign" works progressively through a sequence of checks that combine different permutations of the input name, exact versus fuzzy matches, matches that consider the entire name input versus a subset of words, and character strings that indicate a name can only be resolved to a genus or family. The aligned names are then, when possible, updated to a currently accepted taxon concept within the APC. This package should facilitate all research outputs that require diverse scientific name lists to be merged or outdated lists to be updated.
著者: Elizabeth H Wenk, W. Cornwell, A. Fuchs, F. Kar, A. Monro, H. Sauquet, R. E. Stephens, D. S. Falster
最終更新: 2024-02-05 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.02.578715
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.02.578715.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://biodiversity.org.au/nsl/
- https://traitecoevo.github.io/APCalign/articles/function_notes.html
- https://traitecoevo.github.io/APCalign/articles/APCalign.html
- https://traitecoevo.github.io/APCalign/articles/updating-taxon-names.html
- https://posit-connect-unsw.intersect.org.au/APCalign-app/
- https://www.plantminer.com/
- https://www.environment.nsw.gov.au/topics/animals-and-plants/biodiversity/nsw-bionet