Simple Science

最先端の科学をわかりやすく解説

# 物理学# 化学物理学# 機械学習

新しい方法が機械学習を使って分子構造を特定するよ。

機械学習を使ったアプローチで、NMRデータからの分子構造予測がスムーズになるんだ。

― 1 分で読む


機械学習が分子構造予測を変機械学習が分子構造予測を変えてるよ。接予測する。革命的なモデルがNMRデータから構造を直
目次

分子の構造を素早く理解することは、化学の多くの分野で重要だよね。でも、この作業は結構難しいこともあって、特に一次元のNMR(核磁気共鳴)スペクトルだけに頼ると大変なんだ。これが一番シンプルなNMRデータで、取得も簡単なんだけど、原子の数が増えると可能な構造の数が指数関数的に増えていくから、化学者が正確な分子構造を見つけるのが大変なんだよね。

この記事では、未知の分子の構造を解明するプロセスを簡素化するために、機械学習を使った新しい方法を紹介するよ。私たちのアプローチは、分子構造をNMRデータだけに基づいて理解して予測するために訓練されたトランスフォーマーという特別な機械学習モデルを使ってるんだ。つまり、分子に関する事前知識(分子式やその断片など)は全く必要ないってわけ。

従来の方法の問題

従来、化学者はNMRスペクトルを解読して、分子の特定の部分を表す特定のピークを探していたんだ。この方法は高い専門知識が必要で、かなり時間がかかるんだよね。小さな分子や既知の構成要素からできた分子の場合、科学者はデータベースを使って過去の実験に基づいて一致するものを見つけることができるんだけど、非水素原子の数が増えると、可能な構造の数が圧倒的になるんだ。

例えば、11個の重い原子を持つ有機化合物を考えると、約2600万通りの可能な構造がある。17個に増やすと1660億通り、21個になると20兆通りを超える。こうした圧倒的な増加は、正しい構造を素早く見つけるのを難しくするんだよね。

機械学習が解決策に

最近、研究者たちはNMRデータから構造を特定するために機械学習を使い始めてる。一部の方法は、部分的な構造(サブ構造)を特定して、その情報を使って大きな構造を組み立てることに焦点を当ててるんだ。これは期待が持てる結果を見せてはいるんだけど、サブ構造を完全な分子構造に変換するのが課題なんだよね。

うちの方法は、タスクを小さな部分に分解する代わりに、NMRスペクトルから直接分子全体の構造を予測することに焦点を当ててるんだ。これには、NMRスペクトルのような順序データを扱うのが得意なトランスフォーマーモデルを使ってる。

私たちのアプローチ:新しいフレームワーク

私たちが提案するアプローチは、1D NMRスペクトルから分子構造とサブ構造の両方を予測することに焦点を当てたマルチタスクな機械学習フレームワークを使用してる。モデルは、入力データの処理を最小限に抑えて訓練されていて、機能するために化学式や事前の断片は必要ないんだ。

最初に、シンプルなサブ構造に関する情報から分子構造を予測するためにトランスフォーマーモデルを訓練したんだ。この初期段階が、モデルが分子のピースを組み立てる方法を学ぶのに重要で、最終的には完全な分子構造を予測するパフォーマンスが向上したんだ。

モデルの訓練

トランスフォーマーモデルを訓練するために、既知の分子の大規模なデータセットを使用したんだ。このデータセットには、炭素、窒素、酸素のような非水素原子を含むさまざまな化合物が含まれてる。これらの化合物のNMRスペクトルを分析することで、モデルは異なる分子構造に対応するデータのパターンを認識することを学んだんだ。

初期の訓練は、小さな断片の有無に基づいて分子構造を決定することに焦点を当ててた。この作業は、化学者が通常NMRデータを解釈する方法に似てる。モデルがこのステージでうまく機能するようになったら、NMRデータから全体の構造とサブ構造の両方を予測するマルチタスクフレームワークに統合したんだ。

結果と発見

テスト中、私たちのモデルは、最初の15回の試行のうち69.6%の確率で分子の正確な構造を予測する能力を示したんだ。この結果は特に印象的で、最大19個の重い原子を含む分子でも機能できたから、可能な構造の数が膨大であるのに対して相当な挑戦だったんだ。

従来の方法と比べて、私たちのアプローチは時間を節約するだけでなく、エラーのリスクも大幅に減少させたんだ。事前の化学知識に頼らないことで、トランスフォーマーモデルは不完全な情報でも機能できるから、化学者にとって価値あるツールなんだよ。

分子の結合性の理解

私たちのモデルの設計は、サブ構造が完全な分子を形成する方法を理解できるようになってるんだ。サブ構造のシーケンスを完全な分子構造に変える翻訳タスクのように問題を扱うことで、モデルは複雑な分子を効率的に組み立てることができるんだ。

この翻訳アプローチは、分子の異なる部分の関係を捉えて、たとえ大きくて複雑な構造でも正確に予測できるようにするんだ。トランスフォーマーモデルは、入力データのすべての部分を総合的に見るアテンションメカニズムを通じて、これらの接続を効果的に捉えてる。

NMRスペクトルに焦点を当てる

私たちのアプローチの核心は、NMRスペクトルを使用することにあるんだ。このスペクトルは、分子の原子が磁場の中でどのように振る舞うかに基づいて分子の構造に関する貴重な情報を提供してくれるんだ。

私たちは、1Hと13CのNMRの2種類のスペクトルに焦点を当ててる。これらは広く使われていて、多くの情報を提供するからね。私たちのモデルは、これらの生のスペクトルを直接取り込んで分子構造を予測することができるので、前処理の必要が大幅に削減されて、より効率的なワークフローを実現できるんだ。

モデルが直面した課題

モデルをさまざまな分子サイズでテストしていると、大きな分子ほど精度がわずかに低下することが分かったんだ。例えば、モデルの精度は10個の重い原子で77.5%だったのが、19個になると52%に落ちちゃった。でも、この精度の低下は、可能な構造の数の膨大な増加に比べれば最小限なんだ。これはモデルのスケーラビリティと効率性を示してるんだよ。

モデルが正しい分子を予測できなかった場合でも、目標構造との類似性(タニモト類似度)がかなりのレベルに達していたんだ。これは、モデルが正確な一致が見つからなくても有意義な洞察を提供できることを示してるんだ。

結論と今後の方向性

私たちは、1Hと13C NMRスペクトルから迅速に構造解明を可能にする強力な機械学習フレームワークを紹介したんだ。このアプローチは、事前の化学知識が全く必要ない点で画期的で、化学者にとって必須のツールになりつつあるんだ。

これからは、この研究を拡張する機会がたくさんあるよ。将来的な発展には、モデルをより大きくて複雑な分子を扱えるようにしたり、予測に立体化学を組み込むことが含まれるかもしれないんだ。訓練に使用するデータの多様性と複雑さを増やすことで、モデルの精度と効率をさらに向上させることができるんだ。

全体的に、私たちの研究は、化学の発見プロセスを大幅に加速できる強力なツールの礎を築くものなんだ。分子構造を迅速かつ正確に特定できるシステムを開発することで、製薬、材料科学、さらにはそれ以外の分野での新しいブレークスルーを支援できるんだよ。

オリジナルソース

タイトル: Accurate and efficient structure elucidation from routine one-dimensional NMR spectra using multitask machine learning

概要: Rapid determination of molecular structures can greatly accelerate workflows across many chemical disciplines. However, elucidating structure using only one-dimensional (1D) NMR spectra, the most readily accessible data, remains an extremely challenging problem because of the combinatorial explosion of the number of possible molecules as the number of constituent atoms is increased. Here, we introduce a multitask machine learning framework that predicts the molecular structure (formula and connectivity) of an unknown compound solely based on its 1D 1H and/or 13C NMR spectra. First, we show how a transformer architecture can be constructed to efficiently solve the task, traditionally performed by chemists, of assembling large numbers of molecular fragments into molecular structures. Integrating this capability with a convolutional neural network (CNN), we build an end-to-end model for predicting structure from spectra that is fast and accurate. We demonstrate the effectiveness of this framework on molecules with up to 19 heavy (non-hydrogen) atoms, a size for which there are trillions of possible structures. Without relying on any prior chemical knowledge such as the molecular formula, we show that our approach predicts the exact molecule 69.6% of the time within the first 15 predictions, reducing the search space by up to 11 orders of magnitude.

著者: Frank Hu, Michael S. Chen, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

最終更新: Aug 15, 2024

言語: English

ソースURL: https://arxiv.org/abs/2408.08284

ソースPDF: https://arxiv.org/pdf/2408.08284

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事