Intégration de l'apprentissage automatique dans les expériences de réflexométrie aux rayons X
Cet article examine le rôle de l'IA pour améliorer les expériences de rayons X.
― 15 min lire
Table des matières
- Importance des installations de rayons X
- Transition vers des expériences basées sur les données
- Analyse des données en ligne et retour d'information en temps réel
- Application des techniques d'apprentissage automatique
- Analyse en temps réel et gestion des données
- Mise en œuvre du contrôle en boucle fermée
- Analyse des structures multicouches
- Importance d'un retour d'information robuste
- Futures intégrations et conclusions
- Source originale
- Liens de référence
Ces dernières années, l'intérêt pour l'utilisation de l'Apprentissage automatique (AA) dans les expériences de rayons X a vraiment augmenté. Ces techniques s'avèrent utiles dans la recherche où de grandes quantités de données sont générées rapidement. L'AA peut automatiser l'analyse des résultats obtenus dans les installations de synchrotron et de neutron. C'est important parce que ça permet une prise de décision plus rapide basée sur l'Analyse des donnéesEn temps réel.
Cet article parle de comment l'AA peut être intégré dans un système en boucle fermée pour la réflectométrie aux rayons X (RXR). Les exemples utilisés se concentrent sur la croissance de films minces organiques. L'objectif est de montrer comment l'AA peut être utilisée pour l'analyse des données en ligne et un retour d'information immédiat pendant les expériences.
Importance des installations de rayons X
Les installations de rayons X sont parmi les plus grands générateurs de données scientifiques dans le monde. Elles réalisent des expériences dans un large éventail de disciplines scientifiques. En général, ces expériences consistent à positionner un échantillon dans un faisceau de rayons X et à enregistrer les données, comme la radiation diffusée par l'échantillon. Avec les avancées technologiques, particulièrement dans les sources de lumière synchrotron de quatrième génération et la nouvelle technologie de détecteurs, le volume de données générées a considérablement augmenté.
Cette augmentation des données a créé des défis pour gérer, analyser et stocker ces informations. Pour relever ces défis, de nombreuses installations ont développé des solutions spécifiques ou ont collaboré avec des groupes nationaux et internationaux pour créer de nouveaux systèmes.
Transition vers des expériences basées sur les données
Avec les nouveaux développements technologiques dans les lignes de faisceau modernes, la nature des expériences est en train de changer. Elles deviennent plus basées sur les données et dépendent de l'apprentissage automatique pour l'analyse des données. Avant, les instruments des installations fonctionnaient comme des systèmes isolés, rendant souvent difficile pour les utilisateurs d'intégrer leur équipement dans le système de la ligne de faisceau. Cela change, car l'importance de jeux de données accessibles et complets est reconnue.
De tels jeux de données sont précieux pour les applications d'apprentissage automatique et facilitent de nouvelles expériences qui n'étaient pas possibles auparavant. En intégrant l'analyse des données de diffusion et de diffraction des rayons X en temps réel dans un système de contrôle en boucle fermée, cela permet d'ajuster activement l'environnement de l'échantillon.
Analyse des données en ligne et retour d'information en temps réel
L'intégration de l'AA dans les expériences de rayons X ouvre des possibilités passionnantes pour étudier la physique sous-jacente. Un des principaux points d'intérêt est de savoir comment le code d'apprentissage automatique développé par les utilisateurs peut être combiné avec les systèmes de contrôle de ligne de faisceau pour permettre une analyse des données en temps réel.
La réflectométrie est une technique utilisée pour étudier les propriétés des films minces. Dans cet article, nous présentons une approche moderne basée sur l'AA pour prédire les paramètres des films minces, en utilisant à la fois des structures à une couche et à plusieurs couches comme études de cas.
Méthodes et gestion des données
De nombreuses études récentes ont mentionné l'utilisation de l'AA dans les environnements de lignes de faisceau de synchrotron et de neutron. Ces développements se produisent souvent dans de grandes installations où les utilisateurs ont un accès spécial pour intégrer des logiciels supplémentaires dans le système de contrôle de la ligne de faisceau. Cependant, il y a un besoin de techniques d'AA spécifiques aux utilisateurs pendant les expériences. Cet article explore des moyens d'implémenter une analyse en temps réel basée sur l'AA dans de grandes installations sans être lié à des expériences spécifiques.
Avant de plonger dans les détails techniques, il est essentiel d'expliquer le processus d'acquisition des données. Dans une expérience de réflectométrie aux rayons X, les données sont générées de deux manières principales : à travers des détecteurs de zone et des positionneurs de moteur. Les détecteurs de zone, comme Dectris Pilatus et MaxiPix, capturent les données, tandis que le contrôle de l'expérience est géré à l'aide de logiciels comme BLISS. Ce logiciel sauvegarde également les données dans un format spécifique et les envoie au portail de données de l'installation.
Intégrer le code développé par les utilisateurs dans le logiciel de ligne de faisceau est essentiel pour l'expérience. Il y a un défi à équilibrer le besoin de modifications par les utilisateurs avec le maintien de la stabilité du logiciel de la ligne de faisceau pour tous les utilisateurs. Par conséquent, créer des environnements logiciels isolés pour le contrôle et le code utilisateur est crucial. Des méthodes d'échange de données doivent également être établies pour éviter les problèmes de dépendances logicielles.
Options d'infrastructure
Les systèmes de contrôle de ligne de faisceau modernes fournissent des cadres pour accéder aux données. Cela implique souvent de publier des données à travers une base de données intégrée ou d'accéder directement aux flux d'événements produits par le processus d'acquisition. Bien que ces méthodes puissent faciliter l'analyse des données en ligne, elles sont généralement spécifiques à certaines installations.
Une autre option simple pour les utilisateurs est de travailler avec les systèmes de contrôle supervisé et d'acquisition de données (SCADA) utilisés par les installations. Deux systèmes importants sont les contrôles TANGO et EPICS. Pour cette étude, nous évaluons TANGO, qui est largement utilisé dans les installations de synchrotron européennes. Les données peuvent être transférées du système de contrôle de la ligne de faisceau via SCADA sans ajouter de dépendances logicielles à l'environnement de la ligne de faisceau.
Une autre option est d'utiliser des moteurs de workflow qui n'ont pas toujours de capacités en temps réel, car ils dépendent généralement de planificateurs de tâches qui peuvent introduire des délais. Pour les workflows d'apprentissage automatique, des solutions standardisées existent pour gérer de plus grands modèles d'AA, comme le serveur d'inférence NVIDIA Triton.
Flux de données et traitement asynchrone
Lors de la collecte de données, le flux implique diverses étapes, de l'acquisition à l'analyse et au contrôle en boucle fermée. Les données sont collectées en utilisant Bliss, qui sont ensuite transférées pour une analyse en ligne. Les résultats de cette analyse informent les opérations en boucle fermée et sont sauvegardés avec les données brutes.
En séparant le contrôle de la ligne de faisceau et l'analyse des données basée sur l'AA en termes d'infrastructure, cela répond également aux différents besoins matériels des deux processus. Le contrôle de la ligne de faisceau est étroitement lié aux instruments, tandis que l'analyse des données AA nécessite souvent des ressources informatiques plus puissantes, permettant de fonctionner indépendamment.
Des installations comme l'ESRF ont développé des systèmes pour répondre à ces besoins. Le système VISA, qui est basé sur OpenStack, soutient l'infrastructure nécessaire pour que les utilisateurs mènent des expériences efficacement.
Retour d'information synchrone vs asynchrone
Deux configurations pour le système d'analyse des données en ligne ont été testées lors des expériences. Dans un cas, l'acquisition de données, l'analyse et les actions de retour d'information se produisent de manière synchrone. Dans cette configuration, TANGO est utilisé pour transférer des données 1D vers le système d'analyse fonctionnant sur une machine virtuelle où l'inférence AA est effectuée. Cela permet d'utiliser les résultats dans le processus principal de contrôle de la ligne de faisceau, déclenchant des actions au besoin.
La deuxième configuration découple l'acquisition de données de l'analyse et du retour d'information. Cette approche asynchrone maximise les taux d'acquisition de données. Dans cette configuration, le streaming continu de données permet un traitement en temps réel sans influencer le logiciel de contrôle de la ligne de faisceau.
Application des techniques d'apprentissage automatique
Bien que cet article ne plonge pas profondément dans les méthodes spécifiques d'apprentissage automatique utilisées, il y a des concepts importants à souligner. Pour l'analyse rapide et automatisée des données mesurées, des techniques comme l'estimation de maximum de vraisemblance (MLE) basée sur des réseaux de neurones sont employées.
Ces méthodes intègrent des connaissances antérieures sur l'échantillon pour améliorer le processus d'ajustement et réduire l'incertitude. Dans la réflectométrie, l'objectif est de reconstruire le profil de densité de scattering (SLD) de l'échantillon sur la base des courbes de réflectivité mesurées.
Inverser cette opération présente des défis uniques en raison de l'ambiguïté inhérente aux données de diffusion de rayons X. Cette ambiguïté signifie que de nombreux profils SLD différents peuvent correspondre à la même mesure. Par conséquent, utiliser la compréhension physique du système est essentiel pour réduire les solutions potentielles.
Incorporation des connaissances antérieures
Dans des études précédentes sur des structures à deux couches, les chercheurs ont formé des réseaux de neurones pour estimer seulement quelques paramètres d'intérêt tout en gardant d'autres constants. Élargir cette approche pour aborder un ensemble plus large de paramètres nécessite des techniques supplémentaires pour aborder l'ambiguïté.
Une méthode consiste à placer des limites sur les paramètres comme entrée supplémentaire au réseau de neurones. Cela signifie que chaque paramètre ouvert a des plages assignées qui déterminent ses limites. Cette approche confine l'espace de solution pour un échantillon particulier tout en permettant une certaine flexibilité au sein d'un seul réseau de neurones.
Une autre technique implique la paramétrisation basée sur la physique. Pour les structures multicouches, cette méthode simplifie le nombre de paramètres estimés en définissant des relations entre plusieurs couches. Cette compréhension collaborative des structures monomoléculaires facilite énormément la tâche pour le réseau de neurones.
Analyse en temps réel et gestion des données
Un module rapide, accéléré par GPU, a été développé dans le cadre de PyTorch pour calculer les courbes de réflectivité. Cela permet un entraînement en temps réel des réseaux de neurones pendant les expériences. Ajuster les paramètres d'entraînement à la volée est maintenant possible, ce qui signifie qu'une planification minutieuse est moins nécessaire.
Toutes les données, y compris les résultats de l'analyse en ligne, sont stockées de manière liée. Cela signifie que les données brutes et les résultats de l'analyse sont sauvegardés ensemble, facilitant l'accès et le partage. L'infrastructure en place à l'ESRF permet l'intégration des résultats dans des cahiers de laboratoire électroniques pendant les expériences.
Dans notre travail, les expériences ont été menées sur la ligne de faisceau ID10 de l'ESRF, en utilisant la réflectométrie aux rayons X (RXR). Un environnement d'échantillon UHV a été mis en place pour faire croître des films minces moléculaires.
Mise en œuvre du contrôle en boucle fermée
L'objectif était de stabiliser la croissance des films minces moléculaires en temps réel. Le système en boucle fermée basé sur l'AA contrôle le fonctionnement des obturateurs, ce qui permet une couverture précise soit du substrat, soit du faisceau moléculaire. Pour éviter d'éventuels dommages au faisceau, le flux de rayons X a été réduit pour prévenir les impacts sur les intensités maximales pendant les phases de croissance.
Les matériaux choisis pour l'étude incluent l'aluminium-tris(8-hydroxychinoline) et le N,N'-Dioctyl-3,4,9,10-perylendicarboximid. Ces composés servent d'exemples pour étudier à la fois des films minces amorphes et des systèmes multicouches cristallins.
Résultats et discussion
Pour tester les solutions techniques, l'objectif était de faire croître des films minces à une épaisseur spécifique, permettant au système d'AA de contrôler quand arrêter le processus de croissance. Il était essentiel de fournir des connaissances antérieures sur les paramètres du film pour obtenir des ajustements robustes à travers de nombreux scans.
Des techniques d'apprentissage automatique ont été utilisées pour analyser avec précision les signaux RXR. Des corrections, comme des déplacements pour des erreurs d'alignement, ont été prises en compte durant ce processus. En raison de la nature du système en boucle fermée, les épaisseurs de film variables pendant un scan ont dû être considérées si le scan prenait du temps.
Les ajustements à une ou plusieurs couches se sont révélés efficaces avec l'approche AA, garantissant que l'ajustement avait une grande précision. Cela était crucial pour atteindre le contrôle en boucle fermée et mettre fin correctement à la croissance lorsque l'épaisseur cible était atteinte.
Analyse des structures multicouches
En plus d'étudier des films minces amorphes, des structures multicouches ont également été explorées. En intégrant des connaissances physiques dans le modèle AA, il est devenu possible d'ajuster rapidement les pics de Bragg moléculaires provenant de multicouches.
La capacité à ajuster rapidement tout en fonctionnant en mode boucle fermée a permis une acquisition de données efficace. Une courbe de réflectométrie complète initiale a été utilisée pour établir une base pour d'autres scans. Des ajustements en direct ont fourni des indications sur le nombre de couches déposées, chaque oscillation dans les données correspondant à une seule monolayer.
Comparer les résultats de l'AA aux mesures d'un microbalance à quartz (QCM) a montré un accord raisonnable pour les films plus épais. Certaines divergences ont été notées pour les films plus fins, soulignant les défis rencontrés lors de l'ajustement des données RXR où plusieurs modèles peuvent fournir des résultats similaires.
Importance d'un retour d'information robuste
Pour que le système en boucle fermée basé sur l'AA fonctionne efficacement, une analyse en temps réel robuste est critique. Les résultats de l'AA doivent refléter les tendances d'épaisseur au fil du temps pendant la croissance. Des informations précises sont essentielles pour prendre des décisions basées sur des données extrapolées concernant l'épaisseur future du film.
La résolution des mesures de réflectivité a été identifiée comme une limitation critique. Pour y remédier, des processus asynchrones gérant les extrapolations temporelles ont été intégrés dans le système de contrôle. Cela a permis de gérer des légers écarts dans les résultats de l'AA tout en maintenant un retour d'information fiable.
Futures intégrations et conclusions
Dans cette étude, un cycle complet de retour d'information pour contrôler les processus de croissance a été établi en utilisant l'analyse de données en temps réel basée sur l'AA. Cette technique est adaptée à diverses expériences nécessitant une observation in situ des dynamiques de croissance et des processus en équilibre.
Nous envisageons un avenir radieux dans l'intégration de boucles de retour d'AA pour d'autres expériences, comme celles impliquant le contrôle de recharge de batteries et les conditions d'études sur les nanoparticules. L'accent mis sur les ensembles de données FAIR révèle le potentiel de l'AA à améliorer l'utilité des données brutes archivées en fournissant des métadonnées scientifiquement pertinentes.
Globalement, l'intégration de l'analyse des données en ligne avec des boucles de retour d'information va créer un processus plus efficace pour utiliser le temps de faisceau dans les grandes installations. Les utilisateurs pourront observer leurs expériences en temps réel et réaliser des expériences auparavant inaccessibles, contribuant à un pool croissant de données scientifiques significatives.
Titre: Closing the loop: Autonomous experiments enabled by machine-learning-based online data analysis in synchrotron beamline environments
Résumé: Recently, there has been significant interest in applying machine learning (ML) techniques to X-ray scattering experiments, which proves to be a valuable tool for enhancing research that involves large or rapidly generated datasets. ML allows for the automated interpretation of experimental results, particularly those obtained from synchrotron or neutron facilities. The speed at which ML models can process data presents an important opportunity to establish a closed-loop feedback system, enabling real-time decision-making based on online data analysis. In this study, we describe the incorporation of ML into a closed-loop workflow for X-ray reflectometry (XRR), using the growth of organic thin films as an example. Our focus lies on the beamline integration of ML-based online data analysis and closed-loop feedback. We present solutions that provide an elementary data analysis in real time during the experiment without introducing the additional software dependencies in the beamline control software environment. Our data demonstrates the accuracy and robustness of ML methods for analyzing XRR curves and Bragg reflections and its autonomous control over a vacuum deposition setup.
Auteurs: Linus Pithan, Vladimir Starostin, David Mareček, Lukas Petersdorf, Constantin Völter, Valentin Munteanu, Maciej Jankowski, Oleg Konovalov, Alexander Gerlach, Alexander Hinderhofer, Bridget Murphy, Stefan Kowarik, Frank Schreiber
Dernière mise à jour: 2023-06-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.11899
Source PDF: https://arxiv.org/pdf/2306.11899
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.