Ligando a Genética de Levedura a Características Complexas
Pesquisadores analisam genética de levedura pra prever características usando aprendizado de máquina.
Gianni Liti, S. Khaiwal, M. De Chiara, B. P. Barre, I. Barrio-Hernandez, S. Stenberg, P. Beltrao, J. Warringer
― 8 min ler
Índice
Muitos traços em organismos vivos são complexos e influenciados por vários fatores. Isso pode incluir informações genéticas, o ambiente e como esses fatores interagem entre si. Isso dificulta descobrir exatamente como esses traços são controlados em nível genético. Estudos de associação genômica, ou GWAS, têm ajudado a conectar certos marcadores genéticos a traços em organismos que foram bem estudados. No entanto, muitas vezes eles perdem mudanças genéticas menos comuns e efeitos menores. Quando se trata de combinações de mudanças genéticas, os desafios ficam ainda maiores, dificultando a detecção de todos os padrões, exceto os mais óbvios.
A aprendizagem de máquina está se tornando uma ferramenta útil para criar modelos que podem captar relações complexas entre genes e traços. Esses modelos podem ajudar a prever traços identificando quais mudanças genéticas podem ser responsáveis. Informações adicionais, como dados de várias fontes biológicas e perspectivas evolutivas, podem melhorar ainda mais esses modelos. No entanto, tanto os GWAS quanto esses modelos preditivos podem perder eficácia quando os fatores ambientais não são controlados. A levedura, especificamente Saccharomyces cerevisiae, é um organismo poderoso para estudar essas relações. É relativamente fácil coletar dados precisos sobre suas informações genéticas e de traços em ambientes controlados.
Uma coleção de 1.011 linhagens de levedura de diferentes ambientes fornece dados valiosos em nível populacional. Pesquisadores mediram 223 traços relacionados ao ciclo de vida da levedura, incluindo crescimento, sobrevivência e várias Características celulares. O estudo também quantificou os níveis de proteínas e RNA nessas linhagens de levedura, oferecendo insights que podem ajudar a prever traços mais complexos com base nas informações genéticas. Além disso, usar métodos avançados de edição genética junto com essas variações de levedura permite testar amplamente as previsões feitas pela aprendizagem de máquina. No entanto, ainda falta uma investigação profunda sobre se a aprendizagem de máquina pode refletir com precisão a relação entre genes e traços da levedura.
O Cenário Fenotípico da Levedura
Para entender o cenário fenotípico da levedura de padeiro, os pesquisadores compilaram informações sobre 190 traços de história de vida de estudos anteriores e adicionaram 33 traços a mais. Esse conjunto de dados inclui 223 traços intimamente ligados ao ciclo de vida da levedura, como quanto tempo vivem e quão bem se reproduzem. Os traços foram medidos em ambientes controlados com variações em nutrientes e exposição a diversos estresses, como mudanças de temperatura ou agentes químicos. Eles foram agrupados em oito categorias principais com base em seu tipo ou nas condições ambientais em que estavam.
Ao examinar como os traços estão relacionados, os pesquisadores descobriram que os traços tendem a ser positivamente correlacionados, ou seja, aumentam ou diminuem juntos. Correlações fortes ocorrem com mais frequência do que correlações mais fracas e negativas. Por exemplo, alguns traços medidos sob condições ambientais semelhantes mostraram relações fortes. Curiosamente, não apenas traços semelhantes se correlacionaram, mas alguns traços de diferentes categorias também mostraram conexões. Por exemplo, o rendimento celular durante o crescimento na presença de certos medicamentos estava positivamente ligado à longevidade.
Os pesquisadores então criaram redes com base nessas correlações para visualizar como os traços interagem. Grupos principais de traços, como taxas de crescimento e rendimento, formaram conexões distintas. Alguns traços não se correlacionaram bem com outros e permaneceram separados na rede, sugerindo que são influenciados por diferentes processos biológicos. Trocas, onde um aumento em um traço leva a uma diminuição em outro, foram menos comuns.
Variantes Genéticas e GWAS em Levedura
Para construir um ponto de referência para entender como a aprendizagem de máquina pode ajudar a vincular dados genéticos e Fenotípicos, os pesquisadores estabeleceram conexões usando métodos modernos de GWAS. Eles compilaram uma lista de 2.341 variantes genéticas ligadas aos traços. Isso incluiu vários tipos de mudanças genéticas, como mutações que causam perda de função. Enquanto diferentes tipos de variantes genéticas foram vinculados aos traços, as mudanças que implicavam perda de função estavam mais frequentemente ligadas a certos traços, como longevidade e tamanho.
Investigações adicionais mostraram que algumas variantes incomuns podem ser significativas, mas difíceis de detectar com métodos padrões. Por exemplo, mutações específicas ligadas à resistência a certos medicamentos foram validadas em experimentos. Curiosamente, o estudo descobriu que mutações sinônimas-essas que não mudam a estrutura da proteína-estavam igualmente representadas entre as descobertas significativas. Isso sugere que pode haver papéis importantes para essas mutações na forma como os traços se manifestam.
O estudo também descobriu que variantes que afetam múltiplos traços eram comuns. Certos genes podiam ser responsáveis por vários traços, especialmente aqueles envolvendo interações entre a levedura e o ambiente. Usando um algoritmo específico, os pesquisadores identificaram grupos de genes que impactavam múltiplos traços. Eles descobriram que módulos bem-sucedidos relacionados ao estresse costumavam lidar com a ligação de proteínas e a resposta celular a fatores externos.
Aprendizagem de Máquina para Previsão de Traços
Com os dados de 223 traços e características genéticas disponíveis, os pesquisadores construíram uma estrutura adaptável para automatizar o processo de previsão de traços com base em informações genéticas. Essa estrutura, chamada Gen-Phen, foi projetada para lidar com várias etapas, incluindo preparação de dados, seleção de características importantes e aprendizado através de modelos de aprendizagem de máquina.
Na fase de treinamento do modelo, os usuários podem escolher entre várias técnicas populares de aprendizagem de máquina. O foco está em avaliar quão bem essas técnicas podem prever traços usando diferentes tipos de informações genéticas. O estudo mostrou que o método de aprendizagem de máquina chamado Máquinas de Gradiente Bayesianas geralmente apresentou o melhor desempenho, seguido por outros modelos como Regressão de Vetores de Suporte e redes neurais.
Testes em vários traços revelaram que as previsões eram bastante precisas, embora alguns traços fossem mais fáceis de prever do que outros. O estudo também descobriu que reduzir o número de características usadas nos modelos ajudou a melhorar o desempenho geral e diminuiu o risco de overfitting-onde os modelos se tornam muito ajustados aos dados de treinamento e falham em generalizar para novos dados.
Comparando Preditores
Ao comparar diferentes tipos de dados moleculares para ver qual previu melhor os traços da levedura, o estudo descobriu que os dados de presença-ausência de genes do pangenoma se destacaram como o preditor mais eficaz. Outros tipos de dados genéticos, como variações de perda de função, tiveram um desempenho moderado, enquanto medições de proteínas e RNA foram menos eficazes.
Uma análise adicional indicou que, ao usar uma mistura de traços, especialmente aqueles que eram positivamente correlacionados, a precisão das previsões melhorou significativamente. As descobertas sugeriram que usar uma ampla gama de traços poderia ajudar a prever resultados melhor do que focar em traços não correlacionados.
Insights Biológicos das Previsões
As previsões feitas através da aprendizagem de máquina ofereceram insights sobre quais variantes genéticas contribuíram mais para os traços. As pontuações de importância das características mediram quanto cada mudança genética afetou as previsões. Curiosamente, os pesquisadores encontraram algumas características genéticas que se destacaram e estavam ligadas a traços específicos, como crescimento em certos ambientes.
Em resumo, os pesquisadores usaram uma grande coleção de linhagens de levedura para investigar as complexas relações entre genética e traços. As descobertas consistentes mostraram que certos tipos de traços são mais fáceis de prever, e a aprendizagem de máquina oferece um método promissor para revelar padrões ocultos em dados genéticos. Embora ainda existam obstáculos, especialmente com mudanças genéticas raras, o potencial desses métodos para informar nossa compreensão da biologia parece muito promissor.
Título: Predicting the natural yeast phenotypic landscape with machine learning
Resumo: Most organisms traits result from the complex interplay of many genetic and environmental factors, making their prediction from genotypes difficult. Here, we used machine learning models to explore genotype-phenotype connections for 223 life history traits measured across 1011 genome-sequenced Saccharomyces cerevisiae strains. Firstly, we used genome-wide association studies to connect genetic variants with the phenotypes. Next, we benchmarked an automated machine learning pipeline that includes preprocessing, feature selection, and hyperparameters optimization in combination with multiple linear and complex machine learning methods. We determined gradient boosting machines as best performing in 65% of predictions and pangenome as best predictor, suggesting a considerable contribution of the accessory genome in controlling phenotypes. The accuracy broadly varied among the phenotypes (r = 0.2-0.9), consistent with varying levels of complexity, with stress resistance being easier to predict compared to growth across carbon and nitrogen nutrients. While no specific genomic features could be linked to the predictions for most phenotypes, machine learning identifies high-impact variants with established relationships to phenotypes despite being rare in the population. Near-perfect accuracies (r>0.95) were achieved when other phenomics data were used to aid predictions, suggesting shared useful information can be conveyed across phenotypes. Overall, our study underscores the power of machine learning to interpret the functional outcome of genetic variants.
Autores: Gianni Liti, S. Khaiwal, M. De Chiara, B. P. Barre, I. Barrio-Hernandez, S. Stenberg, P. Beltrao, J. Warringer
Última atualização: 2024-10-18 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.17.618784
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.17.618784.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.