Seleção Inovadora de Câmeras para Gravações Cirúrgicas
Um novo método melhora a seleção de câmeras em vídeos de cirurgia usando deep learning.
― 5 min ler
Índice
Gravar cirurgias é importante pra ensinar e avaliar cuidados médicos. Mas, conseguir boas filmagens pode ser complicado, já que as mãos dos médicos, ferramentas ou outros equipamentos muitas vezes bloqueiam a visão durante os procedimentos. Pra resolver isso, usamos um sistema com várias câmeras embutidas na lâmpada cirúrgica, o que deve permitir que pelo menos uma câmera capture a ação sem nada atrapalhando. O desafio é escolher a câmera que dá a melhor visão da cirurgia entre as várias transmissões de vídeo disponíveis.
Métodos Atuais
Normalmente, a escolha da câmera depende de medir o tamanho da área visível da cirurgia. Mas esse jeito pode nem sempre levar às melhores filmagens, porque as ações mais importantes podem não estar acontecendo na área com a maior visão. Por exemplo, se as mãos do médico ou ferramentas específicas são essenciais pra entender a cirurgia, a melhor câmera pode não ser a que mostra a maior área. Isso mostra que precisamos de uma abordagem diferente pra escolher a melhor visão da câmera.
Nossa Abordagem
Nesse trabalho, a gente propõe um novo método pra selecionar a melhor visão da câmera usando um modelo de aprendizado profundo. Ao invés de simplesmente se basear no tamanho da área da cirurgia, nosso modelo aprende com especialistas humanos que anotam as melhores vistas da câmera. Nossa abordagem é totalmente supervisionada, o que significa que o modelo aprende diretamente das etiquetas fornecidas durante o treinamento.
O método tradicional de tratar isso como uma tarefa de classificação simples tem suas limitações, especialmente quando o número de câmeras usadas muda entre o treinamento e o teste. Então, nosso modelo prevê a probabilidade de cada câmera ser a melhor escolha pra cada quadro do vídeo. Assim, ele pode se adaptar mesmo que o número de câmeras mude.
Estrutura do Modelo
Nosso modelo é composto por quatro partes principais:
Extração de Recursos Visuais: Primeiro, coletamos características de cada quadro do vídeo. Pra isso, usamos um modelo conhecido chamado ResNet-18.
Agregação de Recursos Espaciais: Esse passo combina as características de várias transmissões de câmera ao mesmo tempo pra entender melhor o contexto da cirurgia.
Agregação de Recursos Sequenciais: Aqui, analisamos como as características mudam ao longo do tempo. Um modelo chamado BiLSTM nos ajuda nesse passo, já que considera tanto os quadros passados quanto os futuros.
Módulo de Probabilidade de Seleção: Por fim, o modelo faz previsões sobre qual câmera oferece a melhor visão.
Treinando o Modelo
Coletar os dados foi um desafio grande porque não tinha um conjunto de dados público de vídeos cirúrgicos tirados de várias câmeras. Pra contornar isso, gravamos vários tipos de cirurgias plásticas em uma escola de medicina. Cada cirurgia foi filmada com cinco câmeras diferentes pra melhor cobertura. O treinamento envolveu um expert anotando as melhores imagens pra troca de câmeras.
Usamos um otimizador popular chamado Adam pra treinar, e todo o processo levou cerca de seis horas em um computador potente. Durante o treinamento, enfrentamos um problema conhecido como Desbalanceamento de Classes, onde muitos mais quadros foram etiquetados como "não selecionados" em comparação a "selecionados". Pra lidar com isso, usamos uma técnica chamada perda focal pra equilibrar a importância de cada classificação.
Comparação com Outros Métodos
Não tinha nenhum trabalho anterior abordando a troca de câmeras em vídeos cirúrgicos usando aprendizado profundo. Assim, comparamos nosso método com três outras abordagens pra validar sua eficácia:
Rede Sem Agregação Espacial e Sequencial: Essa versão do nosso modelo usou apenas o ResNet-18 e não agregou características pra considerar o contexto, o que limitou seu desempenho.
Rede Sem Agregação Espacial: Esse método não utilizou o contexto de outras câmeras, o que reduziu sua eficiência em selecionar a melhor visão.
Rede Sem Agregação Sequencial: Aqui, o modelo não levou em conta as mudanças que acontecem ao longo do tempo, que são cruciais pra combinar as melhores vistas.
Resultados
Testamos nosso método em diferentes cenários, dividindo vídeos de cirurgias em conjuntos de treinamento e validação. O primeiro teste foi um cenário de "sequência fora", onde treinamos o modelo em várias cirurgias, mas mantivemos as sequências específicas usadas pra teste desconhecidas. Os resultados mostraram que nosso método se saiu bem, e a precisão melhorou com diferentes componentes do modelo.
Em outro cenário de "cirurgia fora", treinamos o modelo usando alguns tipos de cirurgia e depois testamos em cirurgias totalmente diferentes. Mais uma vez, nosso método se destacou, superando outras abordagens, especialmente porque a variedade de cirurgias tornou essa configuração desafiadora.
Conclusão
Esse trabalho representa uma primeira tentativa de selecionar automaticamente a melhor câmera pra gravações de cirurgia. Nosso modelo aprende efetivamente com sequências de vídeo enquanto agrega dados de uma forma que considera tanto o momento no tempo quanto o contexto fornecido por outras câmeras.
Pra frente, planejamos explorar técnicas mais avançadas que possam considerar toda a sequência de vídeo, já que nossa abordagem atual só olha pra segmentos mais curtos.
Nossa pesquisa contribui pra melhorar como os procedimentos cirúrgicos são gravados, levando a melhores recursos educacionais e avaliações de práticas médicas.
Título: Deep Selection: A Fully Supervised Camera Selection Network for Surgery Recordings
Resumo: Recording surgery in operating rooms is an essential task for education and evaluation of medical treatment. However, recording the desired targets, such as the surgery field, surgical tools, or doctor's hands, is difficult because the targets are heavily occluded during surgery. We use a recording system in which multiple cameras are embedded in the surgical lamp, and we assume that at least one camera is recording the target without occlusion at any given time. As the embedded cameras obtain multiple video sequences, we address the task of selecting the camera with the best view of the surgery. Unlike the conventional method, which selects the camera based on the area size of the surgery field, we propose a deep neural network that predicts the camera selection probability from multiple video sequences by learning the supervision of the expert annotation. We created a dataset in which six different types of plastic surgery are recorded, and we provided the annotation of camera switching. Our experiments show that our approach successfully switched between cameras and outperformed three baseline methods.
Autores: Ryo Hachiuma, Tomohiro Shimizu, Hideo Saito, Hiroki Kajita, Yoshifumi Takatsume
Última atualização: 2023-03-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.15947
Fonte PDF: https://arxiv.org/pdf/2303.15947
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.