Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Abordando o Viés na Previsão de Variantes Genéticas

Um olhar sobre como a ancestragem afeta os preditores de efeito de variantes na pesquisa genética.

― 10 min ler


Viés em Preditores deViés em Preditores deVariantes Genéticasefeitos de variantes genéticas.A ascendência impacta as previsões dos
Índice

Novas tecnologias que permitem sequenciar o DNA humano rapidamente criaram uma longa lista de Diferenças Genéticas entre os humanos. Esse avanço ajuda muito na identificação, tratamento e prevenção de doenças genéticas. Tradicionalmente, a maioria dos estudos genéticos se concentrou em pessoas de ascendência europeia. Isso gerou uma lacuna na nossa compreensão das diferenças genéticas e seus efeitos em pessoas de outras origens. Embora haja uma pressão para incluir mais populações diversas nesses estudos, muitos dos recursos ainda focam principalmente nos europeus. Ampliar a pesquisa genética para incluir uma variedade maior de pessoas é vital para garantir que a saúde de todos seja levada em conta e para melhorar nossa compreensão geral da biologia humana. Ao analisar um espectro mais amplo de diferenças genéticas, conseguimos entender melhor como as doenças genéticas afetam diversos grupos.

O que são Preditores de Efeito de Variantes?

Preditores de efeito de variantes (VEPs) são ferramentas computacionais usadas para estimar como mudanças genéticas podem afetar características, especialmente em relação ao risco de doenças. Ao longo dos anos, muitas dessas ferramentas foram criadas e melhoraram bastante na identificação de mudanças genéticas prejudiciais. Porém, ainda não são confiáveis o suficiente para serem usadas apenas em diagnósticos; normalmente, são usadas como informação adicional ao tomar decisões médicas sobre condições genéticas.

A maioria dos VEPs atualmente em uso é baseada em aprendizado supervisionado. Isso significa que eles foram treinados em conjuntos de dados com variantes genéticas conhecidas, incluindo as que são prejudiciais e as que não são. Chamamos essas de "VEPs baseados em população". Embora sejam amplamente utilizados, existem preocupações sobre o viés dos dados, já que seu treinamento depende muito das populações de onde os dados foram coletados. Por causa do foco histórico em indivíduos de ascendência europeia, essas ferramentas podem não funcionar tão bem para pessoas de outras origens. Mesmo com os esforços recentes para incluir mais dados genéticos de populações não europeias, variantes europeias ainda podem ser estudadas de forma mais extensa, aumentando a chance de serem identificadas como prejudiciais ou benignas. Esse viés pode aumentar a chance de erro de diagnóstico e pode resultar em desconsiderar distúrbios genéticos em populações não europeias.

VEPs Livres de População

Outro tipo de VEP, conhecido como VEPs livres de população, não depende de dados de populações específicas. Essas ferramentas visam evitar qualquer viés de ancestralidade, já que não são treinadas em dados clínicos ou variantes encontradas em populações humanas. Em vez disso, podem usar outros conjuntos de dados para guiar suas previsões. Recentemente, alguns VEPs livres de população mostraram um desempenho impressionante, muitas vezes melhor que os métodos baseados em população em relação ao pareamento de resultados laboratoriais e identificação de variantes prejudiciais. No entanto, essas ferramentas não são tão amplamente adotadas em ambientes clínicos, possivelmente porque não foram explicitamente treinadas para prever a patogenicidade das variantes.

Pesquisa sobre Viés em VEPs

Para investigar o viés potencial nas previsões dos VEPs, comparamos como essas ferramentas avaliam variantes missense-mudanças em um gene que podem impactar a função da proteína-através de diferentes grupos populacionais. Especificamente, testamos três VEPs livres de população: EVE, CPT e GEMME. Comparamos como esses VEPs pontuaram variantes de diversas populações: europeus, chineses, malaios, indianos, mexicanos indígenas e africanos. Garantimos comparabilidade focando em variantes com frequência entre 0,1% e 1%. Nossas descobertas mostraram que os VEPs geralmente produziam pontuações semelhantes em diferentes populações, com apenas pequenas diferenças. Mesmo quando estabelecemos limites específicos para determinar se uma variante era prevista como prejudicial ou não, as proporções de previsões prejudiciais eram bastante consistentes entre os grupos.

Também fizemos a mesma análise com três VEPs baseados em população: ClinPred, BayesDel e AlphaMissense. Os resultados foram surpreendentemente diferentes. Por exemplo, o ClinPred previu quatro vezes mais variantes prejudiciais em populações africanas em comparação com europeus, enquanto o BayesDel previu o dobro em populações malaias em comparação com europeus. Embora o AlphaMissense seja principalmente um modelo não supervisionado, ainda mostrou algum viés com base em como foi treinado. No geral, os VEPs baseados em população demonstraram diferenças maiores em suas previsões entre as populações em comparação com os modelos livres de população.

Ampliamos essa análise para incluir ainda mais VEPs em vários grupos de ancestralidade. Os resultados mostraram que os 24 métodos com as maiores diferenças entre populações europeias e não europeias eram todos VEPs baseados em população. Isso indicou fortemente que muitos desses modelos apresentam viés devido às populações nas quais foram treinados.

O Debate sobre o Desempenho dos VEPs

Alguns podem argumentar que os VEPs baseados em população são simplesmente melhores em detectar diferenças reais entre os grupos. De fato, quando testamos a capacidade dessas ferramentas de distinguir entre variantes prejudiciais e benignas, vários dos métodos de melhor desempenho mostraram diferenças significativas. No entanto, isso provavelmente é influenciado pelo viés introduzido durante seu treinamento, já que os métodos foram diretamente ensinados usando as mesmas variantes e genes que estão agora avaliando. Muitos desses VEPs tiveram diferenças marcadas em seu desempenho entre classificações clínicas e resultados laboratoriais, indicando que podem estar superajustando aos dados nos quais foram treinados.

Curiosamente, alguns dos VEPs baseados em população preveem menos variantes como prejudiciais quando usamos nossa abordagem de teste. Por exemplo, o ClinPred previu apenas 2,26% das variantes europeias como prejudiciais, enquanto o CPT previu 19,81%. Essa discrepância é uma consequência natural de seu design, já que esses modelos são menos propensos a categorizar variantes presentes em seus dados de treinamento como prejudiciais. No entanto, quando ajustamos os limites para que cada VEP previsse a mesma proporção de variantes prejudiciais, as mesmas tendências persistiram, indicando os viéses contínuos.

É importante também notar que os viéses nas previsões dos VEPs podem ocorrer em ambas as direções, levando alguns modelos a classificar variantes de populações não europeias como mais prejudiciais e outros como menos. Variantes de populações africanas, por exemplo, podem ser vistas como menos prejudiciais em comparação com métodos livres de população, enquanto variantes mexicanas indígenas poderiam ser vistas como mais prejudiciais. Isso ocorre em parte porque variantes de populações europeias têm mais chances de serem vistas e classificadas como benignas. Apesar de nossos esforços para controlar a frequência em nível populacional, alguns grupos têm variantes naturalmente mais comuns, o que afeta as previsões.

Implicações do Viés nos VEPs

Embora alguns VEPs baseados em população mostrem níveis significativos de viés, outros apresentaram diferenças menores que ainda eram maiores do que as vistas em métodos livres de população. Esses viéses podem não afetar muito as análises envolvendo variantes raras ligadas a doenças severas, como aquelas causadas por mutações únicas. No entanto, à medida que os pesquisadores analisam cada vez mais variantes em nível populacional, é fundamental considerar como o treinamento em diferentes populações pode influenciar as previsões feitas por essas ferramentas.

Uma possível solução é treinar modelos em populações mais representativas. No entanto, usar dados populacionais sempre introduzirá algum viés nas previsões. Portanto, recomendamos usar VEPs livres de população para diminuir esses problemas. Nem todas as estratégias de VEP que incorporam dados populacionais são automaticamente vulneráveis a esse viés. Por exemplo, o popEVE usa conhecimento sobre variação populacional para refinar as pontuações de efeito de variantes sem depender de dados de populações específicas para classificação. Ele alinha-se aos resultados dos VEPs livres de população em relação às diferenças entre grupos.

Outra abordagem promissora envolve experimentos de alto rendimento que permitem medir eficazmente os efeitos das variantes em diferentes populações. Embora o número de genes disponíveis para esses métodos seja atualmente limitado, eles têm um grande potencial para fornecer avaliações imparciais das variantes.

Conjuntos de Dados Populacionais e Filtragem de Variantes

Neste estudo, usamos três conjuntos de dados de sequenciamento populacional para coletar informações sobre variantes genéticas de várias ancestrais: gnomAD, Estudo Prospectivo da Cidade do México e projeto SG10K Health de Singapura. Focamos em variantes de nucleotídeos únicos com um filtro de qualidade "PASS". Para construir uma coorte europeia, incluímos variantes da população europeia não finlandesa no gnomAD e da população europeia no estudo da Cidade do México. Para as coortes não europeias, as variantes foram obtidas de grupos africanos/afro-americanos, americanos admixed, leste asiático, médio oriente e sul asiático no gnomAD, bem como mexicanos indígenas e africanos do estudo da Cidade do México, e chineses, indianos e malaios do projeto de Singapura. As populações finlandesas e judaicas asquenazitas foram excluídas da análise para garantir comparações justas.

Para avaliar de forma justa o enriquecimento previsto de variantes prejudiciais, consideramos variantes com frequeência alélica entre 0,1% e 1% em ambas as populações europeias e não europeias. Esse método garantiu que o número de variantes usadas para comparações fosse semelhante e que sua distribuição seguisse padrões semelhantes. Também limitamos nosso foco a variantes encontradas em genes com variantes missense relatadas como prejudiciais ou provavelmente prejudiciais.

Conclusão

Em conclusão, o estado atual da predição de efeito de variantes destaca questões significativas sobre viés, especialmente em relação à ancestralidade. VEPs baseados em população mostram discrepâncias significativas em como preveem efeitos de variantes entre diferentes grupos, enquanto ferramentas livres de população parecem mais confiáveis em diversas ancestrais. À medida que avançamos, é crucial enfatizar a importância da inclusão na pesquisa genômica. Trabalhando para entender melhor a variação genética que reflete a diversidade da população humana, podemos aprimorar nossas abordagens para diagnosticar e tratar doenças genéticas para todos. A busca contínua por ferramentas preditivas imparciais e eficazes, no fim das contas, levará a melhores resultados de saúde para todas as populações, independentemente de sua origem genética.

Mais de autores

Artigos semelhantes