Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer le recrutement pour les essais cliniques sur le cancer avec des outils de NLP

Les modèles de NLP aident à identifier les critères d'éligibilité pour les essais cliniques sur le cancer.

― 8 min lire


Outils NLP dans lesOutils NLP dans lesessais cliniques sur lecancercliniques sur le cancer.patients sont recrutés pour les essaisLe NLP améliore la façon dont les
Table des matières

Le Cancer touche beaucoup de gens, entraînant des taux élevés de maladie et de décès. Rien qu'aux États-Unis, il y avait presque 1,9 million de nouveaux cas de cancer et plus de 600 000 décès en 2022. Les Essais cliniques jouent un rôle crucial dans le développement de nouveaux traitements et médicaments contre le cancer. Cependant, convaincre les patients de participer à ces essais peut être compliqué. Beaucoup de patients s'inquiètent des risques des nouveaux traitements ou ne reçoivent pas toutes les infos sur les essais. En plus, il peut être difficile de trouver les bons essais parce que les règles sur qui peut participer sont souvent écrites dans un langage complexe qui est dur à comprendre pour ceux qui ne sont pas dans le domaine médical.

L'Importance des Critères d'éligibilité

Chaque essai clinique a un protocole, qui est comme un plan détaillé incluant les objectifs de l'essai, son design, ses méthodes et ses règles. Les critères d'éligibilité sont une partie essentielle de ce plan car ils définissent qui peut participer. Ces critères incluent généralement des exigences sur ce que les patients doivent avoir (critères d'inclusion) et ce qui pourrait les exclure (critères d'exclusion).

ClinicalTrials.gov est un site public où on trouve des infos sur les essais cliniques aux États-Unis. Ça a commencé à exiger l'enregistrement des essais en 2007. Début 2023, environ un demi-million d'études étaient enregistrées. Cette richesse d'infos est utile pour la recherche, notamment pour étudier les tendances au fil du temps, comprendre différentes populations impliquées dans les essais, et développer des outils qui aident à recruter des patients.

Défis dans le Recrutement

Trouver des patients éligibles pour les essais cliniques peut prendre beaucoup de temps et d'efforts. Un gros problème est que les critères d'éligibilité ne sont souvent pas écrits dans un format cohérent. Cette incohérence peut embrouiller à la fois les patients et leurs médecins, causant des retards dans le recrutement. Il y a un besoin croissant d'outils automatiques pour aider à identifier ces critères vite et correctement.

Le Traitement du langage naturel (NLP) est un domaine de l'informatique qui se concentre sur l'interaction entre les ordinateurs et la langue humaine. Le NLP a plusieurs usages dans le domaine de la santé, comme l'extraction et l'organisation d'infos à partir de données textuelles comme les critères d'éligibilité et les dossiers de patients. En utilisant des outils de NLP, il est possible de créer des systèmes qui identifient automatiquement les exigences importantes pour les essais cliniques, facilitant ainsi le processus de recrutement pour les patients et les professionnels de santé.

Notre Projet

Notre objectif est de créer des classificateurs qui identifient les critères d'exclusion clés dans les descriptions d'éligibilité des essais cliniques sur ClinicalTrials.gov. On a développé notre propre modèle basé sur des cadres de NLP existants, en utilisant plus d'un demi-million de sections de critères d'éligibilité de cette base de données. Les résultats de notre modèle seront comparés avec d'autres modèles existants pour évaluer sa performance.

Travaux Liés en Text Mining

Plusieurs projets ont précédemment travaillé sur la simplification de la recherche et de l'organisation des critères d'éligibilité pour les essais cliniques. Par exemple, Criteria2Query est un outil qui transforme des descriptions d'éligibilité complexes en requêtes plus simples qui peuvent aider à identifier des patients éligibles. DQueST est un autre projet qui fournit un questionnaire pour guider les individus dans la recherche d'essais appropriés.

D'autres outils existent pour structurer les critères d'éligibilité ou extraire des infos pertinentes qui correspondent aux besoins des patients. Certaines initiatives se concentrent sur la création de bases de données, de lexiques ou de banques de connaissances qui catégorisent les critères d'éligibilité courants. Des exemples incluent les projets EliIE et Chia, qui fournissent des collections d'essais annotés pour des maladies spécifiques.

Collecte de Données et Processus d'Annotation

Pour notre étude, on a collecté 764 essais cliniques sur le cancer de ClinicalTrials.gov, en se concentrant sur les essais de 2000 à 2017. Chaque essai a été annoté par des professionnels de santé en utilisant un processus de révision à deux personnes pour assurer l'exactitude. On s'est concentré sur l'identification de sept critères clés importants pour les essais sur le cancer :

  • Cancer antérieur
  • Statut VIH
  • Statut HBV
  • Statut HCV
  • Maladie psychiatrique
  • Utilisation de drogues et d'alcool
  • Conditions auto-immunes

On a divisé le texte d'éligibilité de chaque essai en phrases pour aider le modèle à mieux identifier les critères. Cette étape était nécessaire car beaucoup de modèles existants ne peuvent gérer qu'une quantité limitée de texte à la fois, et les phrases plus courtes sont plus faciles à traiter pour le modèle.

Correspondance de Mots-Clés

Pour trouver les phrases pertinentes, on a créé une liste de mots-clés pour chacun des sept critères. En faisant correspondre ces mots-clés dans le texte, on a extrait les phrases contenant les informations les plus cruciales. Ce processus aide le modèle à apprendre à classer les phrases selon les critères qui nous intéressent.

Les listes de mots-clés pour chaque critère aident à équilibrer sensibilité et précision. Parfois, on peut garder des phrases qui ne sont pas directement pertinentes parce que comprendre quand une info manque est tout aussi critique pour la performance du modèle.

Le Processus d'Annotation

Après avoir extrait les phrases, on a demandé à deux annotateurs de les examiner pour évaluer leur pertinence par rapport aux critères. On a résolu les désaccords par discussion et en se référant à la documentation des essais. Ce processus de révision a assuré qu'on maintenait les mêmes standards que les annotations originales des essais.

Mise en Œuvre du Modèle

On a utilisé plusieurs modèles avancés de NLP pour évaluer l'efficacité de notre approche. On a divisé le jeu de données en un ensemble d'entraînement et un ensemble de test, ce qui nous a permis d'évaluer la performance du modèle. L'objectif était d'utiliser les données d'entraînement pour créer un modèle robuste capable de classer avec précision les critères d'éligibilité à travers différents essais.

Notre évaluation a inclus plusieurs modèles de NLP bien connus spécialement conçus pour le texte médical, comme BioBERT et ClinicalBERT. En plus, on a utilisé notre propre modèle qui a été spécialement entraîné pour ce projet.

Métriques d'Évaluation

Pour mesurer la performance de nos modèles, on a regardé la précision, le rappel et les scores F1. Ces métriques aident à montrer à quel point le modèle peut identifier des infos pertinentes. On a calculé des scores à la fois au niveau des phrases et au niveau des essais pour comprendre comment le modèle fonctionne dans des scénarios réels.

Résultats

On a trouvé que notre modèle pré-entraîné a très bien fonctionné, atteignant souvent les meilleurs résultats par rapport à d'autres modèles pour la plupart des critères. Par exemple, lors du test pour le statut de cancer antérieur, notre modèle a obtenu un score élevé. Cependant, certains critères étaient plus difficiles, comme le statut HCV, où le modèle a eu du mal à identifier correctement les phrases pertinentes.

Malgré ces défis, nos résultats ont montré que notre modèle pouvait identifier et classer efficacement les infos pertinentes, en particulier pour les critères clés des essais cliniques sur le cancer.

Conclusion

En résumé, on a réussi à développer des classificateurs automatiques utilisant des modèles de NLP pour identifier des critères d'éligibilité critiques pour les essais cliniques sur le cancer. Notre travail a montré que ces outils peuvent apporter de la valeur en améliorant le processus de recrutement pour les patients et les cliniciens. En avançant, on prévoit d'élargir nos modèles pour couvrir plus de critères et de maladies, avec pour but ultime de créer un outil complet qui puisse aider au recrutement dans les essais cliniques à travers diverses conditions.

En simplifiant la communication des critères d'éligibilité, on peut aider plus de patients à trouver les essais qui pourraient leur offrir de l'espoir et de nouvelles options de traitement.

Plus d'auteurs

Articles similaires