Novo Método Melhora Análise de Dados Biológicos
Introduzindo suposições de intervalo pra melhorar a análise de dados biológicos.
Justin D Silverman, K. C. McGovern
― 9 min ler
Índice
- O Problema com as Normalizações
- Diferentes Abordagens para Análise
- Entendendo a Inferência Dependente de Escala
- Usando Suposições de Intervalo
- Os Benefícios das Suposições de Intervalo
- Testando Hipóteses com Suposições de Intervalo
- Implementando a Nova Abordagem
- Comparação com Métodos Tradicionais
- Conclusão
- Fonte original
- Ligações de referência
Na pesquisa de saúde moderna, os cientistas costumam analisar dados de organismos vivos. Esse processo geralmente envolve métodos como sequenciamento de 16S rRNA ou sequenciamento de RNA. Essas técnicas ajudam os pesquisadores a observar a atividade dos genes ou a presença de vários micróbios em diferentes condições, como indivíduos saudáveis versus doentes. O objetivo é ver se a quantidade de certos genes ou micróbios muda dependendo dessas condições.
No entanto, estudar esses dados pode ser complicado. Um desafio é que a quantidade de leituras feitas a partir de uma amostra nem sempre reflete a escala biológica real dessa amostra. Por exemplo, se os pesquisadores analisam uma amostra do intestino de uma pessoa, a quantidade de micróbios que eles encontram nem sempre corresponde à quantidade real de micróbios presentes. Por causa disso, muitos cientistas dizem que os dados são "composicionais", ou seja, mostram apenas quantidades relativas em vez de quantidades exatas.
Para comparar as quantidades de genes ou micróbios de forma eficaz, os pesquisadores precisam saber tanto como esses números mudam em relação uns aos outros quanto como os números totais mudam no geral. Ao analisarem os dados, eles costumam calcular um valor específico chamado Log-Fold-Change, que ajuda a resumir essas mudanças. Infelizmente, os dados em si não oferecem informações suficientes para calcular esse valor diretamente, então os cientistas precisam fazer algumas suposições ou usar outras medições, como citometria de fluxo.
O Problema com as Normalizações
Por um bom tempo, os cientistas enfrentaram esses desafios por meio de um processo chamado Normalização. Ferramentas populares para isso incluem métodos como ALDEx2, DESeq2 e limma. A normalização visa ajustar os dados para lidar com problemas relacionados à escala das medições.
No entanto, escolher o método de normalização pode impactar bastante os resultados da análise. Diferentes métodos de normalização vêm com diferentes suposições sobre os dados. Por exemplo, alguns métodos assumem que a escala biológica não muda de forma alguma entre diferentes condições. Se essas suposições estiverem um pouco erradas, podem levar a um alto número de resultados incorretos, ou seja, os pesquisadores podem identificar falsamente alguns genes ou micróbios como mudando quando na verdade não mudaram.
De fato, estudos mostraram que ferramentas comuns de normalização podem ter altas taxas de falsos positivos e falsos negativos. Isso significa que os pesquisadores costumam cometer erros ao identificar o que realmente está acontecendo com os genes ou micróbios.
Diferentes Abordagens para Análise
Os pesquisadores criaram várias abordagens para lidar com os desafios de analisar esse tipo de dado. Uma abordagem é usar modelos de escala, que fornecem uma maneira de representar a incerteza na escala biológica do sistema. Esses modelos ajudam a identificar a faixa potencial de valores que poderiam explicar os dados.
Outro método é a Análise de Sensibilidade, onde os pesquisadores testam repetidamente diferentes valores para ver quão sensíveis são seus resultados a mudanças nas suposições. Embora esse método seja mais simples, ele não oferece as mesmas estruturas estatísticas que os modelos de escala.
Este artigo apresenta uma nova abordagem que combina simplicidade com análise robusta. Introduz uma estrutura baseada em suposições de intervalo, permitindo testar hipóteses que refletem a incerteza sobre a escala biológica. Esse método mantém as vantagens tanto dos modelos de escala quanto da análise de sensibilidade, enquanto é mais fácil de usar.
Entendendo a Inferência Dependente de Escala
A nova abordagem se enquadra em um campo mais amplo conhecido como Inferência Dependente de Escala (SRI). Esse campo examina como estimar valores que não podem ser identificados de forma única devido à escala arbitrária da coleta de dados.
Por exemplo, imagine um estudo examinando os micróbios intestinais em pacientes com uma certa doença comparados a controles saudáveis. Nesse cenário, os pesquisadores podem coletar uma grande quantidade de dados que mostram quantas vezes certos micróbios foram observados. No entanto, esses dados não informam os números absolutos desses micróbios.
Na SRI, os cientistas tratam os dados coletados como uma medição imperfeita do sistema biológico real. O objetivo é identificar como a quantidade de micróbios muda entre diferentes condições de saúde.
Para fazer isso, eles precisam de informações sobre a verdadeira escala do sistema biológico. Como os dados da amostra não fornecem essas informações, os pesquisadores muitas vezes precisam confiar em medições externas ou fazer suposições.
Usando Suposições de Intervalo
As suposições de intervalo tentam preencher essa lacuna. Os pesquisadores podem fornecer conhecimento prévio ou medições externas que informem sua compreensão sobre as escalas potenciais. Isso pode se basear em pesquisas anteriores ou experimentos adicionais.
Por exemplo, em um estudo de microbioma onde antibióticos são usados, os cientistas podem assumir que o número total de micróbios é menor em pacientes que tomam antibióticos em comparação aos controles saudáveis, levando a uma suposição de intervalo.
Outro exemplo é quando os pesquisadores medem a concentração microbiana usando citometria de fluxo, permitindo que eles estabeleçam uma faixa para a escala com base em suas descobertas.
Os pesquisadores podem expressar essas suposições em termos comuns que facilitam o teste de hipóteses. Cada suposição de intervalo ajuda os pesquisadores a formalizar suas expectativas sobre a escala biológica e conduzir análises levando em conta possíveis erros.
Os Benefícios das Suposições de Intervalo
A introdução de suposições de intervalo ajuda os pesquisadores a analisar dados sem depender fortemente de métodos de normalização. Ao usar essa nova estrutura, os pesquisadores podem controlar melhor as descobertas falsas - instâncias em que uma mudança significativa é identificada quando não há nenhuma.
Estudos mostraram que métodos baseados em suposições de intervalo superaram métodos tradicionais de normalização em termos de taxas de descobertas falsas, significando que cometeram menos erros ao identificar mudanças. Eles também podem incluir conhecimento prévio de medições externas, melhorando sua precisão.
Por exemplo, em um estudo analisando microbiomas orais antes e depois de escovar os dentes, os pesquisadores usaram dados de citometria de fluxo para definir suas suposições de intervalo. Os resultados mostraram que apenas um pequeno número de falsos positivos e negativos ocorreu, validando a eficácia dessa abordagem.
O uso de suposições de intervalo também tem implicações para outras áreas de pesquisa. Por exemplo, os cientistas costumam normalizar dados de expressão gênica usando genes de referência, o que assume que esses genes não mudam. Se essa suposição estiver errada, pode levar a resultados enganosos. Ao usar suposições de intervalo, os pesquisadores podem levar em conta possíveis variações e produzir descobertas mais confiáveis.
Testando Hipóteses com Suposições de Intervalo
A estrutura para testar hipóteses usando suposições de intervalo é simples. Os pesquisadores começam definindo uma hipótese nula, que afirma que não há mudança significativa nos dados sendo analisados. Eles então substituem a escala desconhecida pela sua suposição de intervalo, transformando o problema em testar uma hipótese modificada.
Ao testar essas novas hipóteses, os pesquisadores podem usar métodos estatísticos populares, como testes t, para determinar se as mudanças observadas nos dados estão dentro do intervalo definido. Esse processo oferece uma maneira de avaliar seus dados sem cair nas armadilhas associadas às técnicas tradicionais de normalização.
Implementando a Nova Abordagem
Os pesquisadores podem implementar esse novo método usando uma ferramenta de software que facilita o teste de hipóteses nulas de intervalo. O software orienta os usuários pelo processo, desde a configuração dos dados até a análise dos resultados.
Ele permite que os pesquisadores insiram suas suposições de intervalo com base em conhecimento prévio ou medições externas, agilizando o processo de teste de hipóteses.
Os pesquisadores já testaram o método em dados simulados e estudos reais, mostrando resultados promissores na redução de erros enquanto mantêm conclusões confiáveis.
Comparação com Métodos Tradicionais
Ao comparar métodos baseados em suposições de intervalo com técnicas tradicionais de normalização, a nova abordagem demonstra vantagens claras. Não só no controle das taxas de descobertas falsas, mas também em oferecer mais transparência no processo de tomada de decisão.
Por exemplo, em estudos com tamanhos de amostra variados, os novos métodos mantiveram consistentemente o controle sobre falsos positivos, enquanto os métodos tradicionais muitas vezes falharam em tamanhos de amostra maiores. Ao simplesmente substituir a normalização por essa nova estrutura, os pesquisadores conseguiram resultados mais consistentes e confiáveis.
Além disso, esse método complementa os esforços para analisar outros possíveis vieses na coleta de dados, proporcionando um conjunto de ferramentas mais abrangente para os pesquisadores.
Conclusão
Analisar dados de contagem de sequência vem com muitos desafios, especialmente ao determinar a escala dos sistemas biológicos. Métodos tradicionais de normalização têm limitações que podem levar a erros nas conclusões da pesquisa.
A introdução de suposições de intervalo fornece uma estrutura flexível para que os pesquisadores analisem dados com confiança. Esse método melhora a confiabilidade das descobertas ao considerar a incerteza nas medições de escala, enquanto mantém taxas de descobertas falsas mais baixas.
A abordagem não só incentiva uma mudança na maneira como os pesquisadores realizam análises de expressão diferencial, mas também fortalece a qualidade geral da pesquisa científica. Ao adotar essa nova metodologia, os pesquisadores podem navegar melhor pelas complexidades da pesquisa biomédica moderna enquanto melhoram a confiabilidade das suas descobertas.
Título: Replacing Normalizations with Interval AssumptionsImproves the Rigor and Robustness of DifferentialExpression and Differential Abundance Analyses
Resumo: Standard methods for differential expression and differential abundance analysis rely on normalization to address sample-to-sample variation in sequencing depth. However, normalizations imply strict, unrealistic assumptions about the unmeasured scale of biological systems (e.g., microbial load or total cellular transcription). This introduces bias that can lead to false positives and false negatives. To overcome these limitations, we suggest replacing normalizations with interval assumptions. This approach allows researchers to explicitly define plausible lower and upper bounds on the unmeasured biological systems scale, making these assumptions more realistic, transparent, and flexible than those imposed by traditional normalizations. Compared to recent alternatives like scale models and sensitivity analyses, interval assumptions are easier to use, resulting in potentially reduced false positives and false negatives, and have stronger guarantees of Type-I error control. We make interval assumptions accessible by introducing a modified version of ALDEx2 as a publicly available software package. Through simulations and real data studies, we show these methods can reduce false positives and false negatives compared to normalization-based tools.
Autores: Justin D Silverman, K. C. McGovern
Última atualização: 2024-10-18 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.15.618450
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.15.618450.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.