Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Interazione uomo-macchina

Riconoscere le fasi chirurgiche con dati audio e radiografie

Un nuovo metodo usa il parlato e le immagini per identificare le fasi chirurgiche per una cura migliore.

― 7 leggere min


Avanzamenti nelAvanzamenti nelriconoscimento delle fasichirurgichechirurgiche.migliorare il riconoscimento delle fasiCombinando suoni e immagini per
Indice

Il riconoscimento delle Fasi chirurgiche è importante per migliorare l'assistenza ai pazienti e gestire le sale operatorie. Questo compito implica identificare i diversi passaggi durante un'operazione chirurgica per aiutare il personale medico a rimanere informato e prendere decisioni migliori. Riconoscendo queste fasi, possiamo creare sistemi intelligenti che forniscono supporto durante le operazioni.

In questo lavoro, presentiamo un nuovo metodo per riconoscere le fasi chirurgiche utilizzando audio da discorsi e immagini da scansioni radiografiche. Abbiamo utilizzato un framework speciale che combina questi due tipi di dati per capire i diversi passaggi coinvolti nelle operazioni di posizionamento del port-cateter. Questa è una procedura comune in cui un port viene posizionato sotto la pelle, collegato tramite un catetere alle vene che portano al cuore. L'obiettivo è rendere trattamenti come la chemioterapia più facili e sicuri per i pazienti.

L'importanza del riconoscimento delle fasi chirurgiche

Le sale operatorie moderne sono piene di tecnologia avanzata e strumenti che permettono ai dottori di eseguire interventi complessi in modo efficiente. Tuttavia, l'enorme quantità di dati generati durante queste procedure può essere travolgente per il personale medico. Riconoscere le fasi chirurgiche può aiutare ad alleviare parte di questo sovraccarico informativo evidenziando le parti essenziali dell'intervento.

Le fasi chirurgiche si riferiscono ad azioni significative in un intervento, come l'anestesia, la sterilizzazione degli strumenti o l'incisione. Essere in grado di stimare con precisione queste fasi è fondamentale per sviluppare strumenti utili per il personale medico. Sebbene molti studi si siano concentrati su determinati tipi di interventi, come quelli laparoscopici o robotici, c'è una lacuna nell'uso di dati audio e vocali per il riconoscimento delle fasi chirurgiche.

Il nostro approccio

Nel nostro studio, abbiamo creato un framework che utilizza sia dati vocali che radiografici dalle operazioni di posizionamento del port-cateter. Abbiamo costruito un sistema basato su una Rete Neurale Convoluzionale Temporale a Due Livelli, un tipo di modello di machine learning. Questo modello analizza Registrazioni audio e Immagini a raggi X per identificare le diverse fasi dell'intervento.

Abbiamo utilizzato un dataset composto da registrazioni di 31 posizionamenti di port-cateter. Questo dataset includeva discorsi del personale medico coinvolto nelle procedure e immagini radiografiche scattate durante le operazioni. L'audio è stato registrato con microfoni wireless indossati sia dal medico che dall'assistente, e le immagini radiografiche sono state catturate dalla macchina a raggi X.

Raccolta dati e sfide

Durante il nostro studio, abbiamo affrontato alcune sfide. Ad esempio, alcune registrazioni hanno avuto problemi di perdita di dati a causa di problemi tecnici o cambiamenti nel team medico. Di conseguenza, alla fine abbiamo analizzato 25 operazioni riuscite.

Il dataset contiene otto fasi chirurgiche principali: Preparazione, Punctura, Posizionamento del Filo Guida, Preparazione della Borsa e Posizionamento del Catetere, Posizionamento del Catetere, Regolazione del Catetere, Controllo del Catetere e Chiusura. Inoltre, ci sono fasi di transizione, che sono brevi momenti di inattività o conversazione che avvengono tra le fasi principali. Abbiamo escluso queste transizioni dalla nostra analisi per concentrarci sulle fasi principali.

Estrazione delle caratteristiche

Per i dati audio, abbiamo usato un modello chiamato wav2vec 2.0, che aiuta a convertire il parlato in rappresentazioni numeriche che possono essere elaborate dalla nostra rete. Questo modello è stato addestrato su un'ampia gamma di lingue, il che è stato utile dato che le nostre registrazioni erano in tedesco. Abbiamo preso sette secondi di audio per la nostra analisi per assicurarci di includere abbastanza contesto per ciascuna fase.

Per le immagini radiografiche, abbiamo utilizzato un modello pre-addestrato chiamato Densenet121, progettato per riconoscere le caratteristiche nelle radiografie toraciche in modo efficace. Questo modello ci ha fornito informazioni preziose che possono essere combinate con i dati audio per un miglior riconoscimento delle fasi.

Modellazione temporale

Riconoscere le fasi chirurgiche richiede di comprendere la sequenza e il timing degli eventi. Poiché il nostro modello elabora i dati nel tempo, l'abbiamo progettato per catturare relazioni a lungo termine tra diverse fasi utilizzando una Rete Neurale Convoluzionale Temporale a Due Livelli (TCN). Questa scelta ci ha permesso di analizzare i dati registrati in modo più efficace, anche con una quantità limitata di dati di addestramento.

Abbiamo sperimentato diversi metodi per migliorare la capacità del nostro modello di riconoscere con precisione le fasi:

  1. TCN a Due Livelli: Abbiamo combinato dati audio e visivi come input, permettendo al modello di analizzarli insieme.
  2. Codifiche Posizionali: Abbiamo aggiunto informazioni sul timing di ciascun punto dati, aiutando il modello a distinguere fasi simili che si verificano in momenti diversi.
  3. Stima del Ritardo Auto-regressivo: Abbiamo incluso anche stime delle fasi passate per fornire al modello un contesto sulle azioni precedenti.

Dopo aver testato diverse impostazioni, abbiamo scoperto che il modello a due livelli funzionava meglio per la nostra analisi.

Problemi di Sbilanciamento delle classi

Una delle sfide significative che abbiamo affrontato è stata quella del sbilanciamento delle classi. Alcune fasi, come il Posizionamento del Catetere e il Controllo del Catetere, hanno durate più brevi rispetto ad altre, rendendole più difficili da riconoscere. Per affrontare questo problema, abbiamo implementato diverse tecniche:

  1. Loss di Cross-Entropia: Questa è una funzione di perdita comune utilizzata nel machine learning che cerca di minimizzare la differenza tra risultati previsti e reali.
  2. Cross-Entropia Ponderata per Classe: Abbiamo regolato la funzione di perdita per dare maggiore importanza alle fasi poco rappresentate per migliorarne il riconoscimento.
  3. Loss Focal: Questo metodo mirava a ridurre il peso delle fasi facili da classificare e concentrarsi di più su quelle difficili.
  4. Loss a Margine Sensibile alla Distribuzione delle Etichette (LDAM): Questo approccio creava margini più ampi per le fasi a breve durata, aiutando il modello a differenziarle meglio dalle altre.

Attraverso test di questi diversi metodi, puntavamo a migliorare l'accuratezza complessiva del nostro modello di riconoscimento delle fasi chirurgiche.

Risultati e discussione

I nostri esperimenti hanno mostrato che utilizzare insieme i dati audio e radiografici ha portato a un miglior riconoscimento delle fasi. Abbiamo valutato il nostro modello utilizzando punteggi di accuratezza e F1, che misurano l'equilibrio tra precisione e richiamo. Abbiamo osservato variazioni nelle prestazioni a seconda delle strategie impiegate.

Nella nostra valutazione, abbiamo notato che la loss cross-entropy ponderata per classe ha migliorato il riconoscimento delle fasi più brevi, ma alcune fasi rimanevano comunque poco rappresentate. La loss LDAM ha fornito i migliori risultati complessivi, dando al nostro modello la capacità di riconoscere la maggior parte delle fasi in modo coerente.

Lavori futuri

Guardando avanti, puntiamo a affrontare le sfide che abbiamo incontrato, in particolare con il riconoscimento della fase di Posizionamento del Catetere. Abbiamo anche in programma di esaminare il ruolo di diversi canali audio nella nostra analisi. Poiché i medici e gli assistenti hanno responsabilità diverse durante le operazioni, il loro discorso probabilmente fornisce intuizioni uniche riguardo all'intervento.

Inoltre, testare il nostro approccio su altri tipi di operazioni e in diverse lingue potrebbe aiutare a migliorare ulteriormente il nostro modello. Questa ricerca getta le basi per creare assistenti intelligenti nelle sale operatorie, che possono infine migliorare l'assistenza ai pazienti e gli esiti chirurgici.

Conclusione

In sintesi, abbiamo sviluppato un framework per il riconoscimento delle fasi chirurgiche combinando dati audio e radiografici durante le operazioni di posizionamento del port-cateter. Il nostro approccio ha mostrato promesse nel riconoscere diverse fasi chirurgiche e affrontare le sfide legate allo sbilanciamento delle classi e alla modellazione temporale.

Questo studio non solo evidenzia il potenziale dell'integrazione dei dati audio nei compiti di riconoscimento chirurgico, ma incoraggia anche ulteriori esplorazioni nello sviluppo di assistenti interattivi che possano supportare i professionisti medici in tempo reale. Facendo questi passi, speriamo di contribuire al futuro della tecnologia nelle sale operatorie e migliorare complessivamente l'assistenza ai pazienti.

Fonte originale

Titolo: PoCaPNet: A Novel Approach for Surgical Phase Recognition Using Speech and X-Ray Images

Estratto: Surgical phase recognition is a challenging and necessary task for the development of context-aware intelligent systems that can support medical personnel for better patient care and effective operating room management. In this paper, we present a surgical phase recognition framework that employs a Multi-Stage Temporal Convolution Network using speech and X-Ray images for the first time. We evaluate our proposed approach using our dataset that comprises 31 port-catheter placement operations and report 82.56 \% frame-wise accuracy with eight surgical phases. Additionally, we investigate the design choices in the temporal model and solutions for the class-imbalance problem. Our experiments demonstrate that speech and X-Ray data can be effectively utilized for surgical phase recognition, providing a foundation for the development of speech assistants in operating rooms of the future.

Autori: Kubilay Can Demir, Tobias Weise, Matthias May, Axel Schmid, Andreas Maier, Seung Hee Yang

Ultimo aggiornamento: 2023-05-25 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.15993

Fonte PDF: https://arxiv.org/pdf/2305.15993

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili