Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Sélection de caméras innovantes pour les enregistrements chirurgicaux

Une nouvelle méthode améliore la sélection de caméras dans les vidéos de chirurgie en utilisant l'apprentissage profond.

― 6 min lire


Choix de camérasChoix de camérasintelligentes pour lachirurgiechirurgicales.sélection des caméras dans les vidéosL'apprentissage profond améliore la
Table des matières

Enregistrer des chirurgies, c'est super important pour enseigner et évaluer les soins médicaux. Cependant, avoir des bonnes images peut être galère, car les mains des médecins, les outils ou d'autres équipements bloquent souvent la vue pendant les interventions. Pour résoudre ce problème, on utilise un système avec plusieurs caméras intégrées dans la lampe chirurgicale, ce qui devrait permettre à au moins une caméra de capturer l'action sans rien qui gêne. Le défi, c'est de choisir la caméra qui offre la meilleure vue de la chirurgie parmi les multiples flux vidéo disponibles.

Méthodes Actuelles

En général, la sélection de la caméra repose sur la mesure de la taille de la zone visible de la chirurgie. Mais cette méthode ne garantit pas toujours la meilleure prise de vue, car les actions les plus critiques peuvent ne pas se produire dans la zone avec la plus grande vue. Par exemple, si les mains du médecin ou des outils spécifiques sont essentiels pour comprendre la chirurgie, la meilleure caméra ne sera peut-être pas celle qui montre la plus grande zone. Ça montre qu'il faut une autre approche pour choisir la meilleur vue de la caméra.

Notre Approche

Dans ce travail, on propose une nouvelle méthode pour sélectionner la meilleure vue de la caméra en utilisant un modèle d'apprentissage profond. Au lieu de se fier seulement à la taille de la zone chirurgicale, notre modèle apprend des experts humains qui annotent les meilleures vues de la caméra. Notre approche est entièrement supervisée, donc le modèle apprend directement des étiquettes fournies pendant son entraînement.

La méthode traditionnelle de traiter ça comme une tâche de classification simple a ses limites, surtout quand le nombre de caméras utilisées change entre l'entraînement et le test. Du coup, notre modèle prédit la probabilité que chaque caméra soit le meilleur choix pour chaque cadre de la vidéo. Comme ça, il peut s'adapter même si le nombre de caméras change.

Structure du Modèle

Notre modèle se compose de quatre parties principales :

  1. Extraction des Caractéristiques Visuelles : On commence par rassembler les caractéristiques de chaque image vidéo. Pour ça, on utilise un modèle bien connu appelé ResNet-18.

  2. Agrégation des Caractéristiques Spatiales : Cette étape combine les caractéristiques de plusieurs flux de caméras en même temps pour mieux comprendre le contexte de la chirurgie.

  3. Agrégation des Caractéristiques Séquentielles : Ici, on regarde comment les caractéristiques changent au fil du temps. Un modèle appelé BiLSTM nous aide dans cette étape, car il considère les images passées et futures.

  4. Module de Probabilité de Sélection : Enfin, le modèle fait ses prédictions sur quelle caméra fournit la meilleure vue.

Entraînement du Modèle

Collecter les données a été un gros défi parce qu'il n'y avait pas de base de données publique de vidéos chirurgicales prises avec plusieurs caméras. Pour contourner ça, on a enregistré différents types de chirurgies plastiques dans une école de médecine. Chaque chirurgie a été filmée avec cinq caméras différentes pour mieux couvrir. L'entraînement a impliqué un expert annotant les meilleures images pour le changement de caméra.

On a utilisé un optimiseur populaire appelé Adam pour l'entraînement, et l'ensemble du processus a pris environ six heures sur un ordi puissant. Pendant l'entraînement, on a rencontré un problème de Déséquilibre de classes, où beaucoup plus de cadres étaient étiquetés comme "non sélectionnés" par rapport à "sélectionnés." Pour gérer ça, on a utilisé une technique appelée focal loss pour équilibrer l'importance de chaque classification.

Comparaison avec D'autres Méthodes

Il n'y avait pas de travaux précédents concernant le changement de caméra dans des vidéos chirurgicales utilisant l'apprentissage profond. Donc, on a comparé notre méthode à trois autres approches pour valider son efficacité :

  1. Réseau Sans Agrégation Spatiale et Séquentielle : Cette version de notre modèle n'utilisait que ResNet-18 et n'agrégait pas les caractéristiques pour considérer le contexte, ce qui limitait ses performances.

  2. Réseau Sans Agrégation Spatiale : Cette méthode n'utilisait pas le contexte d'autres caméras, ce qui réduisait son efficacité à sélectionner la meilleure vue.

  3. Réseau Sans Agrégation Séquentielle : Ici, le modèle ne prenait pas en compte les changements au fil du temps, ce qui est crucial pour correspondre aux meilleures vues.

Résultats

On a testé notre méthode dans différentes situations, en divisant les vidéos de chirurgie en ensembles d'entraînement et de validation. Le premier test était un réglage "sequence-out", où on a entraîné le modèle sur plusieurs chirurgies mais en gardant les séquences spécifiques utilisées pour le test inconnues. Les résultats ont montré que notre méthode performait bien, et la précision s'est améliorée avec différents composants du modèle.

Dans un autre scénario "surgery-out", on a entraîné le modèle en utilisant certains types de chirurgies et ensuite on l'a testé sur des chirurgies complètement différentes. Encore une fois, notre méthode a bien fonctionné, surpassant les autres approches, surtout que la variété des chirurgies rendait ce montage difficile.

Conclusion

Ce travail représente une première tentative pour sélectionner automatiquement la meilleure caméra pour les enregistrements de chirurgie. Notre modèle apprend efficacement des séquences vidéo tout en agrégant les données d'une manière qui prend en compte à la fois le moment dans le temps et le contexte fourni par d'autres caméras.

Pour l'avenir, on prévoit d'explorer des techniques plus avancées qui peuvent considérer l'ensemble de la séquence vidéo, car notre approche actuelle ne regarde que des segments plus courts.

Notre recherche contribue à améliorer la manière dont les procédures chirurgicales sont enregistrées, menant à de meilleures ressources éducatives et à des évaluations des pratiques médicales.

Source originale

Titre: Deep Selection: A Fully Supervised Camera Selection Network for Surgery Recordings

Résumé: Recording surgery in operating rooms is an essential task for education and evaluation of medical treatment. However, recording the desired targets, such as the surgery field, surgical tools, or doctor's hands, is difficult because the targets are heavily occluded during surgery. We use a recording system in which multiple cameras are embedded in the surgical lamp, and we assume that at least one camera is recording the target without occlusion at any given time. As the embedded cameras obtain multiple video sequences, we address the task of selecting the camera with the best view of the surgery. Unlike the conventional method, which selects the camera based on the area size of the surgery field, we propose a deep neural network that predicts the camera selection probability from multiple video sequences by learning the supervision of the expert annotation. We created a dataset in which six different types of plastic surgery are recorded, and we provided the annotation of camera switching. Our experiments show that our approach successfully switched between cameras and outperformed three baseline methods.

Auteurs: Ryo Hachiuma, Tomohiro Shimizu, Hideo Saito, Hiroki Kajita, Yoshifumi Takatsume

Dernière mise à jour: 2023-03-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.15947

Source PDF: https://arxiv.org/pdf/2303.15947

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires