Aprendizado de Máquina Ajuda a Prever a Recorrência do Câncer Retal
Estudo encontra métodos de aprendizado de máquina eficazes para prever o retorno do câncer retal.
― 8 min ler
Índice
- Inteligência Artificial na Medicina
- Seleção de Pacientes e Dados
- Considerações Éticas
- Abordando o Desequilíbrio de Dados
- Fatores Principais Analisados
- Algoritmos de Aprendizado de Máquina Usados
- Selecionando Características Importantes
- Otimizando Parâmetros do Modelo
- Comparando o Desempenho dos Modelos
- Demografia dos Pacientes
- Resultados do Desempenho do Modelo
- Importância das Características
- Limitações do Estudo
- Conclusão
- Fonte original
O câncer colorretal é uma doença comum e séria que afeta o cólon e o reto. É o terceiro tipo de câncer mais comum e tem a segunda maior taxa de mortalidade no mundo. Dentro desse grupo, o câncer retal representa cerca de um terço dos casos e tende a voltar mais frequentemente do que o câncer de cólon. Isso acontece principalmente porque a parte inferior do reto não tem uma camada protetora chamada serosa, o que facilita a invasão de tumores nos tecidos ao redor. Além disso, é mais complicado para os médicos garantirem que removeram tecido suficiente ao redor do tumor durante a cirurgia. Depois da cirurgia, a chance do câncer voltar em cinco anos pode variar entre 6% e 27,5%. Esse risco é influenciado por fatores relacionados ao próprio tumor e ao tratamento recebido. A detecção precoce e o tratamento rápido de qualquer retorno do câncer podem ajudar a evitar complicações sérias. Portanto, é essencial que os médicos identifiquem fatores que aumentem o risco do câncer retal voltar e fiquem atentos durante as consultas de acompanhamento após a cirurgia.
Inteligência Artificial na Medicina
Recentemente, a inteligência artificial (IA) tem ganhado destaque em várias áreas, inclusive na medicina. Sistemas de IA, especialmente os baseados em Aprendizado de Máquina, foram desenvolvidos para ajudar a prever doenças, seus resultados e caminhos de tratamento. Em estudos recentes, a IA mostrou potencial para prever o retorno de vários tipos de câncer, incluindo os de colorretal, mama e estômago. No entanto, existem apenas alguns estudos que focam especificamente na previsão da recorrência do câncer retal usando métodos de aprendizado de máquina. Este estudo busca comparar quatro métodos diferentes de aprendizado de máquina para ver como eles conseguem identificar fatores importantes que podem indicar uma maior chance de retorno do câncer retal após a cirurgia.
Seleção de Pacientes e Dados
Para este estudo, as informações foram coletadas de um banco de dados que contém dados de pacientes que se submeteram a cirurgia para câncer colorretal no Centro Médico Gil. Os dados foram reunidos de janeiro de 2004 a dezembro de 2018. Para garantir a privacidade dos pacientes, todas as informações pessoais foram anonimizadas. Inicialmente, havia 3.320 pacientes, mas após excluir aqueles com certas condições, como câncer em estágio IV ou câncer de cólon, 961 pacientes foram incluídos no estudo. Desses, 834 pacientes não tiveram recorrência, enquanto 127 pacientes tiveram. Os dados foram divididos em dois grupos: um para treinar os modelos de aprendizado de máquina e outro para testar seu desempenho.
Considerações Éticas
O estudo recebeu aprovação do Comitê de Revisão Ética do Centro Médico Gil. Como foi um estudo retrospectivo, o comitê dispensou a necessidade de consentimento individual dos pacientes.
Abordando o Desequilíbrio de Dados
Neste estudo, houve uma diferença significativa no número de pacientes nos grupos de recorrência e não recorrência. Para lidar com esse desequilíbrio, os pesquisadores usaram uma técnica chamada SMOTETomek. Este método combina duas técnicas: uma para aumentar o número de amostras no grupo menor e outra para reduzir o número no grupo maior. Depois de aplicar esse método, houve números iguais de pacientes em ambos os grupos, o que ajudou a criar um conjunto de dados balanceado para análise.
Fatores Principais Analisados
O banco de dados incluiu 43 características clínicas, mas os pesquisadores focaram em 16 características que eram consideradas relacionadas à recorrência do câncer retal. Essas características incluíam detalhes básicos dos pacientes, como idade e índice de massa corporal, fatores relacionados ao tratamento e fatores relacionados ao tumor, como a localização e o estágio do tumor, além de se havia certos tipos de invasão observados no tumor. Todas as variáveis contínuas foram categorizadas com base em sua importância clínica para facilitar a análise.
Algoritmos de Aprendizado de Máquina Usados
O estudo testou quatro algoritmos de aprendizado de máquina: Regressão Logística (LR), Máquina de Vetor de Suporte (SVM), Floresta Aleatória (RF) e XGBoost. Cada algoritmo usa métodos diferentes para analisar os dados e fazer previsões sobre fatores que podem levar à recorrência do câncer. Por exemplo, o LR usa uma função logística para classificar valores, enquanto o SVM transforma os dados em uma dimensão maior para encontrar a melhor fronteira de classificação. O RF combina várias árvores de decisão para melhorar a precisão, e o XGBoost aumenta a velocidade e o desempenho das previsões em comparação com métodos tradicionais.
Selecionando Características Importantes
Para determinar quais características eram mais importantes para prever a recorrência, os pesquisadores usaram um método chamado importância por permutação. Esta técnica mede quanto o erro de previsão aumenta quando os valores de uma característica são embaralhados aleatoriamente. Ao examinar como cada recurso afeta as previsões do modelo, os pesquisadores identificaram oito características-chave que eram mais significativas para prever a recorrência do câncer retal.
Otimizando Parâmetros do Modelo
Os pesquisadores utilizaram uma técnica chamada busca em grade para encontrar as melhores combinações de configurações para cada modelo de aprendizado de máquina. Este método testa todas as combinações possíveis de parâmetros e seleciona aquelas que proporcionam o melhor desempenho com base nos dados usados para treinamento.
Comparando o Desempenho dos Modelos
Após selecionar as características-chave, os quatro algoritmos de aprendizado de máquina foram treinados e seus desempenhos foram comparados. Os pesquisadores observaram vários indicadores, como sensibilidade, especificidade, precisão e a área sob a curva (AUC), que ajuda a avaliar quão bem os modelos distinguem entre pacientes que terão recorrência e aqueles que não terão.
Demografia dos Pacientes
Um total de 961 pacientes foi analisado no estudo, com um período de acompanhamento que teve uma média de cerca de 60,8 meses. Durante esse tempo, 13,2% dos pacientes tiveram uma recorrência. Fatores como idade, níveis iniciais de antígeno carcinoembrionário, estágio do tumor e certos tipos de invasão foram estatisticamente significativos na previsão de recorrência.
Resultados do Desempenho do Modelo
Entre os modelos testados, o SVM teve a maior pontuação de AUC, o que indica que teve o melhor desempenho na previsão de recorrência. Outros modelos, como o XGBoost, também mostraram um desempenho forte, especialmente em termos de especificidade, que se refere à capacidade do modelo de identificar corretamente pacientes que não têm recorrência. No geral, enquanto o SVM liderou em AUC, a Floresta Aleatória proporcionou um bom equilíbrio entre sensibilidade e especificidade.
Importância das Características
A análise identificou certas características como sendo particularmente importantes em diferentes modelos. O estágio do tumor (pT) foi consistentemente reconhecido como um preditor-chave. Estágios mais altos indicam câncer mais avançado, o que está correlacionado com um maior risco de recorrência. Além disso, o sexo também foi destacado como um fator importante, com estudos anteriores sugerindo que os homens podem ter um risco maior de recorrência em comparação com as mulheres.
Limitações do Estudo
Este estudo teve algumas limitações. Foi realizado em um único centro, o que pode levar a um viés de seleção. Além disso, a análise incluiu um número limitado de fatores, excluindo outros detalhes potencialmente importantes, como histórico de tabagismo ou características específicas do tumor. Os pesquisadores lidaram com o desequilíbrio de dados, mas notaram que o tamanho da amostra para testes pode não ter sido suficiente para validar completamente suas descobertas. Por fim, o estudo não diferenciou entre os diferentes estágios dos tumores, o que pode afetar os resultados.
Conclusão
Resumindo, este estudo comparou a importância de vários fatores na previsão da recorrência do câncer retal usando diferentes métodos de aprendizado de máquina. O modelo SVM mostrou o melhor desempenho geral. Fatores-chave identificados, como estágio do tumor e sexo do paciente, podem ajudar os clínicos a monitorar os pacientes com mais atenção após a cirurgia. No final das contas, aumentar a precisão dessas previsões pode levar a melhores resultados para os pacientes enfrentando câncer retal.
Título: Machine learning based prediction of recurrence after curative resection for rectal cancer
Resumo: PurposePatients with rectal cancer without distant metastases are typically treated with radical surgery. Post curative resection, several factors can affect tumor recurrence. This study aimed to analyze factors related to rectal cancer recurrence after curative resection using different machine learning techniques. MethodsConsecutive patients who underwent curative surgery for rectal cancer between 2004 and 2018 at Gil Medical Center were included. Patients with stage IV disease, colon cancer, anal cancer, other recurrent cancer, emergency surgery, or hereditary malignancies were excluded from the study. The SMOTETomek technique was used to compensate for data imbalance between recurrent and no-recurrent groups. Four machine learning methods, logistic regression (LR), support vector machine (SVM), random forest (RF), and XGBoost (XGB), were used to identify significant factors. To overfit and improve the model performance, feature importance was calculated using the permutation importance technique. ResultsA total of 3320 patients were included in the study. However, after exclusion, the total sample size of the study was 961 patients. The median follow-up period was 60.8 months (range:1.2-192.4). The recurrence rate during follow-up was 13.2% (n=127). After applying the SMOTETomek method, the number of patients in both groups, recurrent and non-recurrent group were equalized to 667 patients. After analyzing for 16 variables, the top eight ranked variables (pT, sex, concurrent chemoradiotherapy, pN, age, postoperative chemotherapy, pTNM, and perineural invasion) were selected based on the order of permutational importance. The highest area under the curve (AUC) was for the SVM method (0.831). The sensitivity, specificity, and accuracy were found to be 0.692, 0.814, and 0.798, respectively. The lowest AUC was obtained for the XGBloost method (0.804), with a sensitivity, specificity, and accuracy of 0.308, 0.928, and 0.845, respectively. The variable with highest importance was pT as assessed through SVM, RF, and XGBoost (0.06, 0.12, and 0.13, respectively), whereas pTNM had the highest importance when assessed by LR (0.05). ConclusionsIn the current study, SVM showed the best AUC, and the most influential factor across all machine learning methods except LR was found to be pT. Clinicians should be more alert if patients have a high pT stage during postoperative follow-up in rectal cancer patients.
Autores: Jeong-Heum Baek, Y. Jeon, Y.-J. Kim, J. Jeon, K.-H. Nam, T.-S. Hwang, K.-G. Kim
Última atualização: 2023-08-06 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.08.03.23293601
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.08.03.23293601.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.