Avancées en IA pour l'analyse des radiographies de os
Nouveau modèle d'IA améliore le diagnostic des problèmes osseux en utilisant des données de rayons X et de rapports.
― 9 min lire
Table des matières
Ces dernières années, l'intelligence artificielle a fait des progrès significatifs dans le domaine de l'imagerie médicale, notamment dans l'analyse des images X. Une nouvelle approche consiste à connecter les données visuelles des Rayons X avec les données textuelles des Rapports médicaux. Cette technique semble prometteuse pour améliorer la précision du diagnostic des problèmes liés aux os. Dans ce contexte, une étude spécifique s'est concentrée sur les radiographies osseuses et les rapports écrits en français. L'objectif était de créer un modèle capable de comprendre les deux types de données et de réaliser diverses analyses avec un minimum d'intervention humaine.
Contexte
Le domaine médical fait souvent face à des défis pour acquérir de grands ensembles de données pour former des modèles d'Apprentissage automatique, principalement en raison des préoccupations liées à la vie privée et de la disponibilité limitée des rapports en langues autres que l'anglais. La plupart des ensembles de données disponibles publiquement comprennent des images et des rapports uniquement en anglais, rendant difficile l'application de ces modèles à d'autres langues sans modifications significatives. Un ensemble de données bien connu est MIMIC-CXR, qui se concentre sur les radiographies thoraciques. Cependant, les radiographies osseuses, qui sont cruciales pour les évaluations orthopédiques, ont des ensembles de données beaucoup plus petits disponibles.
Les réglementations sur la vie privée, en particulier le Règlement général sur la protection des données (RGPD), imposent des règles strictes sur le partage des informations médicales personnelles. Cette limitation oblige les chercheurs à rechercher des données locales au sein des hôpitaux qui ont leurs propres archives d'images de rayons X et de rapports correspondants. De telles bases de données peuvent ne pas être vastes, mais elles contiennent des informations précieuses pour former et valider des modèles d'apprentissage automatique.
L'approche proposée
Cette étude utilise des rayons X des os associés à des rapports médicaux écrits en français provenant d'un seul hôpital universitaire. Le but est de créer un modèle qui aligne les représentations visuelles et textuelles, lui permettant d'effectuer diverses tâches en radiographie osseuse. Les tâches incluent l'évaluation de la gravité de l'arthrose, l'estimation de l'âge osseux chez les enfants, et la détection de fractures ou d'anomalies.
Pour garantir la confidentialité des patients, le pipeline de traitement implique l'anonymisation et le traitement attentif des rapports médicaux. La phase initiale du projet se concentre sur la création d'un ensemble de données d'entraînement solide grâce à une approche méthodique d'associations images-rapports.
Préparation de l'ensemble de données
Les chercheurs ont élaboré un ensemble de données à partir d'images de rayons X et de rapports médicaux correspondants, ce qui a abouti à une collection substantielle de données composée de 219 675 études, incluant plus de 789 000 images de rayons X individuelles. Cet ensemble de données a été obtenu auprès de patients traités dans le département d'orthopédie d'un hôpital universitaire pendant 20 ans. La création a impliqué plusieurs étapes pour préserver la confidentialité des patients, notamment la suppression d'informations identifiables et l'utilisation de techniques de pseudonymisation.
Les images ont été filtrées pour enlever celles contenant du texte sensible, tandis que les rapports médicaux ont été traités pour éliminer tout détail personnel à l'aide d'outils automatisés. Cette préparation rigoureuse a conduit à un ensemble de données qui pourrait être utilisé pour former des modèles d'apprentissage automatique tout en respectant des normes strictes de confidentialité.
Formation du modèle
Le cœur de l'étude se trouve dans la formation d'un modèle capable de gérer à la fois les images et le texte en même temps. L'approche adoptée était connue sous le nom de pré-formation Vision-Language (VLP). Cette méthode impliquait l'alignement des représentations des images et des rapports pour permettre au modèle d'apprendre efficacement à partir des deux formes de données.
Un cadre bi-encodeur a été utilisé, où des encodeurs séparés ont traité le texte et les images. L'encodeur pour le texte a été choisi parmi plusieurs options, avec des modèles multilingues surpassant ceux spécialisés pour les textes biomédicaux en français. L'encodeur d'images a été initialisé à l'aide d'un modèle moderne capable de gérer diverses résolutions. La formation s'est principalement déroulée à différentes résolutions pour évaluer comment ces changements affectaient la performance du modèle.
Durant la formation, l'objectif était de réduire la distance entre les représentations des images et textes appariés tout en augmentant la distance entre ceux qui n'étaient pas liés. Ce processus nécessite un ajustement soigneux et une variété de techniques pour améliorer les performances.
Évaluation des performances du modèle
Après la formation, le modèle a été évalué à travers différentes tâches pour mesurer son efficacité dans des applications réelles. Ces tâches ont été classées en celles formées sur des données du même hôpital ainsi que celles utilisant des ensembles de données externes.
Les chercheurs ont créé un petit ensemble de données supervisé uniquement à cet effet, qui incluait la détection de fractures. Les résultats ont montré que le modèle était nettement plus performant que d'autres formés uniquement sur des ensembles de données disponibles couramment. C'était notable même lorsque beaucoup moins d'images avaient été utilisées pour la formation, soulignant l'efficacité de l'approche proposée.
De plus, le modèle a été testé sur plusieurs ensembles de données externes pour valider davantage sa performance. Les résultats ont montré que les modèles préentraînés avec des rapports en français surpassaient systématiquement ceux initialisés avec des ensembles de données standards, mettant en avant l'adaptabilité et l'efficacité de l'approche.
Tâches en aval : Classification et régression
L'étude s'est également concentrée sur diverses tâches de classification et de régression. En classification, le modèle a été utilisé pour différencier entre des rayons X normaux et anormaux, ciblant spécifiquement des conditions comme les fractures ou l'arthrose.
Pour les tâches de régression, telles que l'estimation de l'âge osseux des patients ou la mesure des angles dans des images de rayons X, le modèle a pu démontrer une amélioration avec un ajustement fin comparé à une initialisation à partir d'ensembles de données traditionnels. De plus, le modèle a montré des performances bénéfiques en utilisant une plus grande résolution d'images, notamment lorsque des embeddings de position ont été préservés durant le traitement.
L'éventail des tâches comprenait la classification binaire, comme la présence d'une fracture sur une radiographie, et la classification multi-classes pour tenir compte de diverses anomalies. La performance des différentes combinaisons d'encodeurs a été analysée, montrant une préférence pour certains encodeurs de texte multilingues.
Apprentissage zéro-shot
Un aspect intéressant de cette étude était son exploration des tâches d'apprentissage zéro-shot, où le modèle a effectué des classifications et des récupérations sans formation supplémentaire sur ces ensembles de données. C'est particulièrement précieux dans des applications réelles, car cela réduit le besoin d'ensembles de données étiquetés étendus.
Lors de la classification zéro-shot, le modèle a associé des invites textuelles avec des embeddings d'image directement. Plusieurs stratégies ont été mises en œuvre pour formuler ces invites, influençant la capacité du modèle à identifier avec précision les classes. Les résultats ont varié considérablement, suggérant que les invites utilisées jouent un rôle crucial dans la performance du modèle.
Pour la récupération zéro-shot, un processus a été mis en place pour extraire des images pertinentes basées sur des requêtes textuelles sans formation préalable. Cette tâche visait à mesurer à quel point le modèle pouvait trouver des images correspondant à des descriptions textuelles spécifiques.
Perspectives et analyse
L'analyse des performances du modèle a fourni des aperçus sur la structure sous-jacente de la façon dont les données d'image et de texte interagissent au sein du modèle. En visualisant les embeddings produits durant la formation, il est devenu évident que la préformation améliorait la capacité du modèle à différencier les différentes localisations anatomiques et conditions représentées dans les rayons X.
Grâce à des techniques comme la visualisation t-SNE et l'analyse discriminante linéaire (LDA), il a été trouvé que les modèles VLP formaient de meilleurs et plus distincts clusters au sein de l'espace d'embedding par rapport aux modèles traditionnels. Cela suggère que la formation combinée d'images et de textes permet une compréhension plus nuancée des données.
Conclusion
Cette étude démontre le potentiel de combiner des données visuelles et textuelles provenant d'images médicales et de rapports pour améliorer le diagnostic et la planification du traitement des patients dans le domaine de l'orthopédie. En utilisant un ensemble de données en français, l'approche comble une lacune dans les matériaux d'entraînement disponibles pour les données médicales non anglaises.
Les résultats montrent que tirer parti des données des hôpitaux locaux non seulement respecte la vie privée des patients mais permet également de créer des modèles d'apprentissage automatique efficaces. En utilisant le VLP, l'étude ouvre de nouvelles voies pour de futures recherches dans le domaine médical, en particulier pour d'autres langues et conditions.
Des travaux futurs pourraient explorer davantage d'ensembles de données locaux et développer des méthodes améliorées pour l'apprentissage zéro-shot. En avançant ces techniques, l'objectif est de rendre les outils d'IA encore plus accessibles et bénéfiques pour diverses applications de santé. Grâce à une amélioration continue, la recherche vise à améliorer la précision diagnostique et finalement les résultats des patients dans le domaine de l'orthopédie et au-delà.
Titre: Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis
Résumé: This paper proposes leveraging vision-language pretraining on bone X-rays paired with French reports to address downstream tasks of interest on bone radiography. A practical processing pipeline is introduced to anonymize and process French medical reports. Pretraining then consists in the self-supervised alignment of visual and textual embedding spaces derived from deep model encoders. The resulting image encoder is then used to handle various downstream tasks, including quantification of osteoarthritis, estimation of bone age on pediatric wrists, bone fracture and anomaly detection. Our approach demonstrates competitive performance on downstream tasks, compared to alternatives requiring a significantly larger amount of human expert annotations. Our work stands as the first study to integrate French reports to shape the embedding space devoted to bone X-Rays representations, capitalizing on the large quantity of paired images and reports data available in an hospital. By relying on generic vision-laguage deep models in a language-specific scenario, it contributes to the deployement of vision models for wider healthcare applications.
Auteurs: Alexandre Englebert, Anne-Sophie Collin, Olivier Cornu, Christophe De Vleeschouwer
Dernière mise à jour: 2024-05-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.08932
Source PDF: https://arxiv.org/pdf/2405.08932
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.