自動タンパク質結晶検出の進展
新しいツールがタンパク質結晶化研究の効率と精度を向上させる。
― 1 分で読む
目次
- 実験画像の自動分類に関する背景
- 自動分類に関する以前の調査
- 画像内の結晶物体検出に関する背景
- 自動結晶検出に関する以前の調査
- 新しいツールを作る理由
- CHiMP分類器モデルの作成
- MARCOデータセット
- CHiMP Classifier-V1の訓練
- CHiMP Classifier-V2の訓練
- モデルパフォーマンスを評価するための画像テストセットの作成
- 実験マイクログラフ内の物体を検出するためのMask R-CNNネットワークの訓練
- VMXi CHiMP Detectorネットワークの訓練
- XChem CHiMP Detectorネットワークの訓練
- 分類ネットワークのパフォーマンス
- 検出ネットワークのパフォーマンス
- まとめと結論
- オリジナルソース
- 参照リンク
タンパク質の構造を決定することは、それらがどのように機能するかを理解するためにめっちゃ重要なんだ。よく使われている方法の一つがX線結晶解析だよ。この技術は、タンパク質が基質や薬などの他の分子とどうやって相互作用するかの詳細な情報を提供できるんだ。AIやクライオ電子顕微鏡みたいな技術が進化してるけど、X線結晶解析はまだタンパク質構造を研究するための最も正確な方法として残っていて、研究者が生化学反応や分子がどう結合するかを分析するのを助けてる。
X線結晶解析をうまく使うには、まずタンパク質結晶を育てなきゃいけないんだ。この結晶はX線ビームにさらされたときに測定可能なパターンを生成するために特定の配置に整えられる必要があるんだけど、これが難しいこともあるんだよ。特に大きなタンパク質は、使われる溶液の中で簡単には形成されないから、適切な条件、たとえばタンパク質濃度や温度を見つけるのに多くの試行錯誤が必要で、成功する可能性を高めるためにたくさんの実験をしなきゃならないんだ。それに、純粋なタンパク質溶液を作るのは高くつくし、時間もかかるから、小規模な実験になりがち。
一般的な結晶化の実験では、タンパク質溶液をさまざまな化学薬品と混ぜて結晶化ドロップを作るんだ。このドロップは、これらの化学薬品の多様な組み合わせを保持できるプレートに置かれるんだけど、最初は研究者たちが過去の研究から得た既知の成功条件を使うんだよ。 promisingな条件を見つけたら、そのプロセスを改善して結晶の質を向上させ、さらに研究のために拡大していく。
タンパク質結晶を一貫して成長させる方法を知ることは、断片ベースの薬剤発見(FBDD)やマクロ分子常温X線結晶解析(RTX)などの技術には欠かせないんだ。FBDDでは、研究者はタンパク質に結合するかもしれない多くの高品質な結晶をテストする必要があるから、これらの化合物は結晶が形成された後に結晶化ドロップに追加されるんだ。研究者たちはその後、各化合物と結晶の組み合わせからデータを集めて、結合モードや潜在的な薬のリードを理解していく。RTXは、科学者が生体系に似た条件でタンパク質を研究することを可能にし、凍結やクライオ保護中に生じる複雑さなしにタンパク質がどのように機能するかについての洞察を提供するんだ。
実験中、科学者たちは結晶化プロセスを手作業またはロボット画像システムで監視してる。自動化された画像ツールは結晶化プレートをインキュベートし、取り出して画像を撮り、何日かまたは何ヶ月かの間に設定した間隔でドロップの写真をキャッチするんだ。大量の実験と画像時間ポイントがあるから、専門家やこのタスクを処理できる自動システムによる慎重な評価を必要とする多くの顕微鏡画像が作成されるんだ。
結晶が形成されたら、次のステップはマクロ分子X線結晶解析を使ったデータ収集なんだ。このプロセスは、特にシンクロトロン施設でどんどん自動化されてきてる。単結晶実験では、研究者はまず結晶をピンに取り付けてから、ロボットシステムを使ってクライオ冷却された容器に保存されたサンプルを切り替えるんだ。この自動化は、X線データ収集プロセス中に直接人間が関与する必要性を最小限に抑えるんだ。検出器技術や自動センタリングシステムの進歩も、プロセスをスムーズにし、科学者がリモートでデータを収集できるようにしてる。RTX実験では、in situデータ収集が結晶の成長環境内で行われることができ、サンプルの手動取り扱いの必要がなくなるんだ。
ダイヤモンド光源(DLS)のVMXiビームライン施設では、最小限のユーザー介入で効率的なRTX実験を可能にしてる。結晶化実験は液体ハンドリングロボットによって設定され、生成されたプレートは自動画像用に近くに保存されるんだ。システムは画像を使って結晶の位置を特定し、ラボ情報管理システムに座標を記録する。ユーザーが興味のあるポイントを選択した後、プレートはビームラインに転送され、自動でデータ収集が行われる。
別の施設、XChemでは、断片ベースの薬剤発見キャンペーンが多くの低分子化合物と共に行われてる。化合物をタンパク質と共に共結晶化する代わりに、研究者たちは結晶が成長した後に化合物溶液に浸すんだ。結晶構造を傷つけないように、結晶化ドロップ内で化合物を正確にターゲティングすることが重要なんだけど、今はこのターゲティングは手動インタフェースを通じて行われている。でも、このプロセスを自動化することで効率が大幅に向上するだろうね。
この研究では、画像ブラウジングや座標選択タスクを楽にするための2つのディープラーニングツールを紹介してる。最初のツール、CHiMP(Crystal Hits in My Plate)Classifierは、社内画像で既存の分類器を上回るパフォーマンスを発揮してる。2つ目のツール、VMXi CHiMP Detectorは、結晶位置を検出してセグメント化するんだ。さらに3つ目のツール、XChem CHiMP Detectorは、結晶化ドロップ内で化合物溶液の最適な分配位置を特定するのを助けてる。
実験画像の自動分類に関する背景
これまでの数年、結晶化試験の監視を自動化するためのさまざまな方法が探求されてきたんだ。異なる機関が実験結果をカテゴリ化するために独自のスコアリングシステムを使っているから、画像のラベル付けに不一致が生じている。人間の専門家はしばしば画像に割り当てるカテゴリについて意見が分かれていて、研究によれば、専門家の約70%が同じセットの画像で合意することができるかもしれないことが示されている。この合意の欠如は、しばしばスケールに沿って変動する結果の分類の難しさを強調してる。
自動分類アルゴリズムのパフォーマンスを分析するときには、精度、適合率、再現率、F1スコアなどのさまざまなメトリックが使用されるんだ。精度は一般的だけど、不均衡なデータセットで誤解を招くことがあるんだ。成功した結晶化の画像が少数派のこともあるからね。だから、適合率、再現率、F1スコアが分類器パフォーマンスを比較するために強調されてるんだ。
適合率は予測がどれだけ正確だったかを示し、再現率はモデルが実際のポジティブインスタンスをどれだけ特定したかを測定する。F1スコアはこれら二つのメトリックを調和させて、バランスの取れた測定を提供するんだ。
歴史的に、自動分類に関する初期の調査は、エッジ検出や線追跡に焦点を当ててた。後の研究では、画像のテクスチャ情報を抽出して機械学習の分類器を訓練することを好んでたんだ。畳み込みニューラルネットワーク(CNN)が注目されるようになると、自動で特徴を作る必要がなくなった。特化したCNNアーキテクチャの導入は、結晶化試験画像の分類において改善された結果をもたらしたんだ。
それでも進展があったにもかかわらず、研究によって成果の一貫性には違いが見られた。いくつかのCNNアーキテクチャは訓練データセットでは良好に機能したけど、独立したデータセットでは苦労してた。この不一致は、モデルの信頼性を向上させるための堅牢な訓練方法とデータセットの慎重な選択の必要性を示してる。
自動分類に関する以前の調査
初期の研究では、研究者たちは最近傍追跡やテクスチャ分析などの方法を使って結晶化画像を分類してた。CNNが普及するにつれて、CrystalNetのようなモデルが大規模な訓練データセットを活用して印象的な分類メトリックを達成してたんだ。でも、その後のテストでは、異なるデータセットでモデルのパフォーマンスが大きく低下することがわかった。
MARCOイニシアチブは、大規模なラベル付き画像のデータセットを用いて強力な分類モデルを作成しようとしたんだ。その結果、高パフォーマンスの分類器ができたけど、ラベルの不一致や実験セットアップのバリエーションなど、データセット内の問題も明らかになったんだ。それらの課題にもかかわらず、MARCO分類器はこの分野で新たな基準を設定したんだ。
MARCOデータセットに関するさらなる調査では、分類された画像のタイプや使用されたモデルアーキテクチャに基づいてモデルのパフォーマンスにバリエーションがあることが明らかになったんだ。いくつかのモデルは訓練データセットで高いメトリックを達成しても、実データに直面すると過剰適合や画像の固有の複雑さのためにパフォーマンスが低下してた。
研究者たちは、事前訓練されたモデルを使用したり、ローカルデータセット画像をプールするなど、分類を改善するためにさまざまな技術を試みてきたんだ。後続のモデルは、主にラベル付き訓練データセットに存在するノイズやあいまいさのために、期待には応えられないことが多かった。
画像内の結晶物体検出に関する背景
最近の進展によって結晶化顕微鏡画像内の特定の物体を検出することに焦点が移ってきた。画像を単に分類するのではなく、研究者はタンパク質結晶やドロップの位置を特定することを目指しているんだ。物体検出技術は、特定されたエンティティの周りにバウンディングボックスを作成し、サイズの推定や座標も提供するんだ。
インスタンスセグメンテーションはさらに一歩進んで、個々のオブジェクトを別々に認識できるようにする。この方法は、各結晶のサイズについての詳細な情報を提供でき、正確なカウントや分類を助けることができるんだ。
ほとんどの物体検出研究は、結晶の特性がよく理解されている化学工学の分野から派生しているんだ。これらの方法は、結晶化プロセスを監視したり、最終製品の形成を特徴づけるために利用されてきた。
物体検出ネットワークのパフォーマンスを評価するためには、平均適合率(mAP)がよく使われる。このメトリックは適合率と再現率に依存しているけど、予測されたバウンディングボックスが実際のオブジェクトの位置とどれだけ一致しているかの情報も組み込まれているんだ。
mAPの複雑さにもかかわらず、前の研究では結果が一貫して報告されていないため、異なるネットワーク間での比較が難しかったんだ。これらのスコアを文書化することで、今後の研究におけるベンチマークを確立する助けになると思う。
自動結晶検出に関する以前の調査
過去には、研究者たちは結晶のインスタンスセグメンテーション向けのネットワークを実験してきた。これらのネットワークは、様々な条件で結晶を正確に区別するために、Mask-R-CNNのような先進的なアーキテクチャを適用してるんだ。
シミュレーション画像に焦点を当てた研究では、ネットワークが結晶を効果的に検出し、サイズを測定できるという期待が寄せられたんだけど、パフォーマンスメトリックは、限られたデータセット、さまざまな質の注釈、報告結果の不明瞭さからくる影響により曖昧になることが多かった。
ディープラーニングネットワークの実用的な応用への関心が高まる中で、実世界のデータセットに関するさらなる調査が行われてる。画像の手動注釈は労力を要する作業で、Zooniverseのような協力プラットフォームがこのプロセスを支援してるんだ。
高品質な訓練データセットを生成する課題にもかかわらず、これらのネットワークは結晶検出の効率と正確性を向上させる可能性を示してる。さらなる開発が進むことで、研究者たちはこれらのプロセスを自動化し、手動検査への依存度を減らすことができるようになるんだ。
新しいツールを作る理由
結晶化監視における自動化の改善を追求する中で、画像の迅速で正確な分類と検出の必要性が大きくなってるんだ。既存のシステムは、結晶構造を特定し、実験結果をカテゴリ化するために人間の介入が必要なことが多い。これらのプロセスを合理化するための願望が新たな分析ツールの探索につながったんだ。
初期の自動化の取り組みはMARCO分類器ネットワークに依存していたけど、社内画像を評価する際にその精度に対する不信感が示されたんだ。これが分類器のパフォーマンスの徹底的な評価を引き起こし、画像を沈殿物と誤分類する傾向があることが浮き彫りになった。
この評価から得られた洞察は、ローカル画像に特化して新しいモデルを訓練することで分類精度が向上すると示唆してるんだ。物体検出機能の大幅な進展を考慮すると、データ収集プロセスの自動化を促進するために新しい訓練方法を追求することが必須になったんだ。
より自動化されたソリューションの必要性を示す二つの異なるユースケースがある。一つ目は研究者がデータ収集のための結晶位置を特定する必要があり、二つ目は結晶化ドロップ内の化合物分配位置を正確にターゲットする必要があるということだ。
手動プロセスは時間がかかるしエラーを引き起こしやすいから、これらのタスクを自動化することでワークフローを速めたり、結果の信頼性を高めたりすることができる。このため、実験的マイクログラフを分類し、結晶の位置を検出できる専門的なディープラーニングツールを開発する動機が生まれているんだ。
CHiMP分類器モデルの作成
結晶マイクログラフ分類ネットワークの開発は、二つの主なデータセットに依存していた。最初のVMXi分類データセットは、VMXiビームラインでの実験中に収集された画像を含んでる。二つ目のMARCOデータセットは、ラベル付き画像の補完的なソースとして機能してるんだ。
最初のモデル、CHiMP Classifier-v1はResNet50アーキテクチャに基づいてて、VMXi分類データセットを用いて訓練された。広範なファインチューニングの後、満足のいく結果を達成したんだ。ただ、技術が進化するにつれて、研究者たちはアーキテクチャを強化して制限を克服し、現代的なテクニックを取り入れようとしたの。
ConvNeXtアーキテクチャへの移行はモデルの大幅なアップグレードを示すもので、ConvNeXtはカーネルサイズの増加や革新的な処理方法を活用してパフォーマンスを向上させてる。訓練が終了すると、新しいモデル、CHiMP Classifier-v2がVMXiビームラインに展開されて、研究者の画像分類を助ける役割を果たすことになった。
VMXi分類データセットのキュレーション
VMXi分類データセットを構築するために、研究者たちは様々な実験からの洞察に基づいてデータベース内の画像を手動でカテゴリ化したんだ。目的は、さまざまな結果を捉えた包括的な画像コレクションを確保することだった。
初期のデータ収集に加えて、冗長な画像や誤解を招く画像を排除する努力も行われた。最終的なデータセットは約14,000枚の画像で構成され、10種類のクラスに分類されたんだ。専門家たちはデータの清掃や精製に細心の注意を払い、分類の精度と明確性を高めることに努めた。
VMXi画像スコアリングラベルの四つのラベルシステムへのマッピング
VMXiデータセットの画像ラベルは、結晶、沈殿物、クリア、その他という簡略化された四つのクラスシステムにマッピングされたんだ。このマッピングは、分類プロセスを効率化し、分析中の混乱を減らすことを目的にしてる。
データセットがクリーニングされ、カテゴライズされた後、訓練セットと検証セットに分割され、分類器の訓練を進めつつ、見たことのないデータでの評価が可能になった。専門家による検証のおかげで、このプロセスは分類器のパフォーマンスに関する堅牢なメトリックを提供したんだ。
MARCOデータセット
MARCOイニシアチブは、結晶化マイクログラフの分類パフォーマンスを向上させるための大規模なデータセットをまとめることを目指してた。このデータセットは、複数の組織から集められた400,000以上のラベル付き画像を含んでた。でも、評価の結果、ラベルの不一致やいくつかの画像の質の問題が確認されたんだ。
初期のクリーニングプロセスを経た後、データセットはモデル訓練のために訓練サブセットと検証サブセットに分けられた。この協力的な努力は、タンパク質結晶化監視の分野を進歩させたい研究者のための包括的なリソースを確立したんだ。
CHiMP Classifier-V1の訓練
CHiMP Classifier-v1を開発するにあたって、研究者たちはfastaiライブラリを使ってImageNetデータベースで事前訓練されたResNet50ネットワークを構築したんだ。このアプローチは、利用可能なデータを効率的に使いながら、モデルが正確な分類を行う可能性を最適化するのに役立った。
訓練プロセスでは、過剰適合を防ぐために訓練データセットを拡張したんだ。ランダムな反転や回転などのさまざまな技術が訓練セットを豊かにするために用いられた。31エポックの訓練の後、モデルは堅実なパフォーマンスメトリックを示し、さらなる探求の基盤を築いたんだ。
CHiMP Classifier-V2の訓練
CHiMP Classifier-v2の訓練は、アップグレードされたモデルアーキテクチャを使用して行われた。ConvNeXt-Tinyネットワークは、以前の訓練からの重みを使って初期化され、細かい調整と新しいデータセット条件への適応がなされたんだ。
訓練は、広範な画像コレクションから学習した特徴を活用するためにMARCOデータセットを使って開始された。その後、モデルはVMXi分類データセットで洗練され、ローカル画像でのパフォーマンスを最大化したんだ。ラベルの不均衡を打破し、全体の精度を最適化するために、慎重な訓練戦略が採用された。
モデルパフォーマンスを評価するための画像テストセットの作成
ネットワークの分類パフォーマンスを評価するために、研究者たちは包括的なテストセットの画像を作成したんだ。代表的なマイクログラフの選択を集めることで、評価プロセスがさまざまな結果を捉えることができるようにしたんだ。
三人の専門家が独立して画像にスコアを付け、レビューア間の合意レベルに基づいて二つのサブセットを作成した。このアプローチにより、研究者は明確なデータセットとほぼ明確なデータセットの両方に対して分類器を評価できるようになったんだ。
実験マイクログラフ内の物体を検出するためのMask R-CNNネットワークの訓練
結晶検出を深堀りするために、研究者たちはMask R-CNNネットワークの能力を探求してる。初期の実験ではGrad-CAM技術を使って特定の特徴を探そうとしたけど、出力の精度が不足していたため、効果的ではなかったんだ。
物体検出アプローチに切り替えることで、研究者たちは個々の結晶を特定するネットワークを訓練できるようになった。高品質な注釈を生成し、協力プラットフォームを使用することで、ネットワークの訓練に適したデータセットが作成されたんだ。
検出ネットワークのための画像選択
検出ネットワークの訓練用の画像の初期選択は、慎重なキュレーションプロセスを経たんだ。研究者たちは以前に収集されたデータセットからサンプリングし、結果の多様な表現を確保することに努めたんだ。
VMXi CHiMP Detectorの訓練用データセットは237枚の画像を含み、XChemデータセットには350枚の画像が含まれてた。この画像は、視認性を高め、訓練プロセスを最適化するために前処理が行われたんだ。
検出ネットワークのための画像注釈の作成
手動の注釈は物体検出ネットワークの訓練に重要だった。専門家たちは、詳細なマスク、ラベル、結晶の位置を示すバウンディングボックスを含む画像を注釈付けしたんだ。協力的な努力がこのプロセスを促進するために、クラウドソース注釈を提供するプラットフォームを通じて行われた。
これらの注釈を用いて、研究者たちはMask R-CNNネットワークの訓練に適した包括的なデータセットを生成したんだ。専門家の洞察と自動化ツールの組み合わせが、結晶検出の効果的なモデルの開発を助けたんだ。
VMXi CHiMP Detectorネットワークの訓練
VMXi CHiMP Detectorネットワークは、画像内の結晶位置を検出するために作成された。モデルの訓練は、限られたデータセットを拡張し、戦略的な訓練技術を通じてパフォーマンスを最適化することで行われたんだ。
広範な訓練の結果、ネットワークは検証セットで満足のいくメトリックを達成した。この最終モデルは結晶を正確に特定し、次のデータ収集のために座標を報告する能力を示したんだ。
XChem CHiMP Detectorネットワークの訓練
XChem CHiMP Detectorネットワークの訓練は、以前に開発されたモデルを基に似た戦略で進められた。データセットは追加の画像と、XChem実験の特定のニーズに合わせた注釈で拡張されたんだ。
訓練は複数のエポックを経て進行し、高い検出精度を維持することに重点が置かれた。この最終モデルは結晶位置を報告することに成功し、化合物分配中の効率的なターゲティングを可能にしたんだ。
分類ネットワークのパフォーマンス
分類ネットワークのパフォーマンスは、検証セットや独立したテストセットで計算された厳密なメトリックを使って評価されたんだ。CHiMP Classifier-v1とClassifier-v2の両方が、画像を正確に分類する能力において大幅な改善を示したんだ。
VMXi分類データセットの検証セットでは、CHiMP Classifier-v1が高い適合率、再現率、F1スコアのメトリックを達成した。アップグレードされたClassifier-v2モデルは、さらに高い成功を示して、アーキテクチャの改善と洗練された訓練戦略の効果を実証したんだ。
検出ネットワークのパフォーマンス
物体検出ネットワークのパフォーマンスは、平均適合率メトリックを使用して評価された。VMXi CHiMP DetectorとXChem CHiMP Detectorネットワークは、結晶を検出し、座標を正確に報告する点で有望な結果を示した。
パフォーマンスメトリックは、結晶を正確に特定し、セグメント化する能力の改善を強調してる。このネットワークは、ワークフローを合理化し、データ収集の効率を向上させるのに役立つことが証明されたんだ。
まとめと結論
CHiMP分類器と検出ネットワークの開発によって得られた進展は、タンパク質結晶化研究の分野において重要な意味を持ってる。これらのツールは自動分類と結晶検出を可能にし、手作業への依存を減らしつつ、精度を向上させるんだ。
これによって、研究者たちがワークフローを合理化することを可能にし、タンパク質構造の決定をより早く、効率的にできるようになる。これらのモデルをさまざまな研究環境で応用する可能性が広がることで、さらなる探求や革新的な発見の扉を開くんだ。
トレーニングデータやモデルの重み、これらのネットワークのコードを共有することは、科学コミュニティ内での協力と改善を促進するために非常に重要なんだ。最終的には、タンパク質とその機能についての理解を深め、病気の研究や治療の進展に貢献することが目指されているんだ。
タイトル: CHiMP: Deep Learning Tools Trained on Protein Crystallisation Micrographs to Enable Automation of Experiments
概要: A group of three deep learning tools, referred to collectively as CHiMP (Crystal Hits in My Plate) were created for analysis of micrographs of protein crystallisation experiments at the Diamond Light Source (DLS) synchrotron, UK. The first tool, a classification network, assigns images into categories relating to experimental outcomes. The other two tools are networks that perform both object detection and instance segmentation, resulting in masks of individual crystals in the first case, and masks of crystallisation droplets in addition to crystals in the second case, allowing positions and sizes of these entities to be recorded. Creation of these tools used transfer learning, where weights from a pre-trained deep learning network were used as a starting point and re-purposed by further training on a relatively small set of data. Two of the tools are now integrated at the VMXi macromolecular crystallography beamline at DLS where they absolve the need for any user input both for monitoring crystallisation experiments and for triggering in situ data collections. The third is being integrated into the XChem fragment-based drug discovery screening platform, also at DLS, to allow automatic targeting of acoustic compound dispensing into crystallisation droplets.
著者: Oliver N F King, K. E. Levik, J. Sandy, M. Basham
最終更新: 2024-05-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.22.595345
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.22.595345.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。