Avançando a Análise de Imagens Celulares na Pesquisa
Novas técnicas melhoram a análise das mudanças celulares usando grandes conjuntos de dados.
― 7 min ler
Índice
Na pesquisa biológica, uma das tarefas difíceis é medir e entender como as células mudam em resposta a diferentes influências, como mudanças genéticas ou químicas. Usar imagens para estudar essas mudanças celulares virou um método popular. Isso normalmente envolve um processo que combina automação e técnicas de alta capacidade para analisar um grande número de amostras ao mesmo tempo.
Avanços recentes geraram grandes conjuntos de imagens de sistemas de triagem de alta capacidade (HCS). Esses conjuntos de dados incluem milhões de imagens capturando uma ampla gama de mudanças celulares, o que ilustra o potencial dessa abordagem. Contudo, analisar essas imagens geralmente requer a criação de ferramentas específicas para identificar células e extrair características, o que pode ser complicado.
Recentemente, os pesquisadores começaram a explorar o aprendizado de representação, que permite que os modelos aprendam com os dados sem precisar de conhecimento prévio detalhado. Esse método tem mostrado potencial para melhorar como os pesquisadores inferem relacionamentos entre diferentes influências biológicas.
Contexto
Tradicionalmente, modelos de aprendizado profundo têm sido treinados para realizar tarefas como segmentação celular e classificação de fenótipos. No entanto, essas tarefas exigem muito tempo e esforço para rotular as imagens corretamente, o que pode ser uma barreira significativa. Alguns pesquisadores tentaram adaptar modelos existentes treinados em imagens naturais para dados de HCS com resultados variados.
Outra abordagem, conhecida como aprendizado fraco supervisionado, permite que modelos aprendam a partir de rótulos pouco claros baseados em metadados experimentais. Embora esse método tenha gerado alguns resultados em alto nível, seu desempenho não necessariamente melhora com conjuntos de dados maiores.
Por outro lado, o aprendizado auto supervisionado ganhou atenção pela sua capacidade de funcionar de forma eficaz com grandes conjuntos de dados que não têm rótulos apropriados. Em vez de depender de rótulos pré-existentes, essa abordagem busca padrões nos próprios dados. Ela se mostrou útil para conjuntos de dados HCS, que contêm uma vasta gama de imagens celulares que podem ser difíceis de rotular por especialistas humanos.
Nesse contexto, Autoencoders Mascarados surgiram como um novo tipo de modelo. Eles funcionam ao reconstruir partes de imagens que estão intencionalmente ocultas, permitindo que aprendam a partir das partes visíveis. Tentativas anteriores de aplicar autoencoders mascarados em conjuntos de dados HCS enfrentaram desafios devido ao poder computacional limitado e ao tamanho dos conjuntos de dados.
Analisando Conjuntos de Imagens Celulares
Para analisar a escalabilidade desses grandes conjuntos de imagens celulares, os pesquisadores avaliaram modelos treinados em quatro conjuntos de dados de microscopia diferentes. Dois desses conjuntos eram grandes coleções proprietárias, enquanto os outros estavam disponíveis publicamente. Esses conjuntos incluíam milhões de imagens únicas tiradas sob várias condições experimentais.
Para avaliar o desempenho dos modelos, os pesquisadores usaram um modelo base treinado para prever distúrbios celulares, produzindo embeddings que representam as imagens em um espaço de menor dimensão. Além disso, adaptaram U-nets para autoencoding mascarado, o que envolvia treinar modelos para reconstruir partes das imagens de entrada.
Outro tipo de modelo testado foi o dos transformers de visão, que também seguem uma abordagem semelhante de autoencoding mascarado. Esses modelos vêm em diferentes tamanhos e configurações, produzindo embeddings de vários tamanhos. Os modelos foram treinados usando uma variedade de recursos, desde configurações menores até grandes clusters de GPUs.
Desempenho e Resultados dos Modelos
Os resultados mostraram que modelos maiores treinados em conjuntos de dados maiores tiveram um desempenho melhor em inferir relacionamentos biológicos em comparação com modelos menores. Isso reforça a ideia de que o tamanho do modelo e do conjunto de dados contribuem significativamente para o desempenho. À medida que os modelos e conjuntos de dados crescem, os pesquisadores notaram melhorias na capacidade de identificar relacionamentos biológicos conhecidos.
Para avaliar os modelos, os pesquisadores observaram quão bem eles capturaram relacionamentos conhecidos dentro de vários bancos de dados públicos. Eles usaram técnicas para normalizar embeddings entre diferentes experimentos e corrigir os preconceitos conhecidos que influenciam os resultados.
Ao comparar os modelos, os pesquisadores descobriram que o desempenho dos modelos usando aprendizado fraco supervisionado tradicional diminuiu à medida que os conjuntos de dados se tornaram maiores. Esse declínio pode estar relacionado a preconceitos subjacentes presentes nos dados. Em contraste, a nova abordagem de aprendizado de representação mostrou resultados fortes, com desempenho melhorando com o aumento do tamanho dos conjuntos de treinamento e da complexidade do modelo.
Desafios de Inferência
Analisar os milhões de amostras geradas a partir desses conjuntos de dados trouxe seus próprios desafios. Cada experimento poderia envolver um grande número de amostras únicas que precisavam ser processadas. Os pesquisadores desenvolveram métodos para lidar eficientemente com os dados, permitindo que várias imagens fossem analisadas simultaneamente.
Durante a inferência, cada poço em um experimento biológico é imagensado, e cortes únicos são obtidos dessas imagens. Esses cortes são então passados pelo modelo para criar representações agregadas. No total, centenas de milhares de amostras podem precisar ser processadas para um único experimento. Isso requer um sistema bem coordenado para gerenciar tamanhas quantidades de dados.
Insights e Direções Futuras
Esse trabalho destaca que modelos maiores treinados em conjuntos de dados significativos podem capturar melhor características celulares e inferir relacionamentos biológicos. Diferente de métodos passados que dependiam de conjuntos de dados menores e curados, a nova abordagem permite que os pesquisadores aproveitem a vasta quantidade de dados produzida pelas técnicas modernas de triagem de alta capacidade.
Os pesquisadores pretendem continuar escalando tanto os tamanhos dos modelos quanto os conjuntos de dados de treinamento. Eles querem descobrir mais sobre como esses fatores influenciam o desempenho do modelo. Avanços contínuos em recursos computacionais e novas estratégias provavelmente levarão a métodos ainda mais eficazes para analisar imagens celulares.
Conclusão
A busca para entender o comportamento celular sob várias influências continua sendo um desafio na pesquisa biológica. Os métodos e tecnologias que estão sendo desenvolvidos atualmente oferecem maneiras promissoras de avançar. Ao empregar grandes conjuntos de dados e técnicas avançadas de aprendizado profundo, os pesquisadores podem esperar obter insights mais profundos sobre as complexidades da biologia celular.
O desenvolvimento contínuo nesse campo sinaliza uma mudança em direção a métodos mais eficientes de análise de imagens, abrindo caminho para novas descobertas e uma melhor compreensão dos processos biológicos que governam a vida. À medida que a pesquisa avança, a colaboração entre cientistas de dados e biólogos será crucial para refinar essas técnicas e aplicá-las a desafios do mundo real na saúde e além.
No fim das contas, a combinação de aprendizado profundo e triagem de alta capacidade tem o potencial de remodelar nossa compreensão dos sistemas biológicos, levando a avanços que podem influenciar nossa abordagem ao tratamento de doenças, descoberta de medicamentos e outras áreas de pesquisa críticas.
Título: Masked Autoencoders are Scalable Learners of Cellular Morphology
Resumo: Inferring biological relationships from cellular phenotypes in high-content microscopy screens provides significant opportunity and challenge in biological research. Prior results have shown that deep vision models can capture biological signal better than hand-crafted features. This work explores how self-supervised deep learning approaches scale when training larger models on larger microscopy datasets. Our results show that both CNN- and ViT-based masked autoencoders significantly outperform weakly supervised baselines. At the high-end of our scale, a ViT-L/8 trained on over 3.5-billion unique crops sampled from 93-million microscopy images achieves relative improvements as high as 28% over our best weakly supervised baseline at inferring known biological relationships curated from public databases. Relevant code and select models released with this work can be found at: https://github.com/recursionpharma/maes_microscopy.
Autores: Oren Kraus, Kian Kenyon-Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw
Última atualização: 2023-11-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.16064
Fonte PDF: https://arxiv.org/pdf/2309.16064
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.