Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Epidemiologia

Abordando Dados Faltantes na Pesquisa

Entender e gerenciar dados faltando é super importante pra ter resultados precisos na pesquisa.

― 7 min ler


Enfrentando Problemas deEnfrentando Problemas deDados Faltantesfaltantes na pesquisa de forma eficaz.Enfrentando os desafios de dados
Índice

Faltando dados é um desafio comum na pesquisa. Quando informações importantes estão ausentes, isso pode impactar os resultados dos estudos, levando a conclusões tendenciosas. Existem várias maneiras pelas quais os dados podem estar faltando. Às vezes, os dados faltam completamente por acaso, ou seja, a falta de dados não se relaciona com nenhuma outra informação que temos. Em outras situações, os dados podem estar faltando, mas essa falta está relacionada a outras informações que possuímos. Por fim, às vezes os dados que estão faltando têm relação com as informações que não temos.

Esse artigo vai discutir esses conceitos, explicar por que são importantes e apresentar métodos que os pesquisadores podem usar para lidar com dados faltantes de maneira eficaz.

Tipos de Dados Faltantes

  1. Faltando Completamente Ao Acaso (MCAR): Esse tipo de dado ausente ocorre sem nenhuma razão específica. As chances de dados estarem faltando são as mesmas, não importa quais outras informações estejam presentes.

  2. Faltando Ao Acaso (MAR): Neste caso, os dados faltantes podem ser explicados por outros dados disponíveis. Por exemplo, se um grupo específico de pessoas tem mais chances de ter dados faltantes, mas sabemos as outras características desse grupo, podemos usar essa informação para compensar os valores ausentes.

  3. Faltando Não ao Acaso (MNAR): Aqui, os dados que faltam estão conectados aos valores que estão ausentes. Por exemplo, se pessoas que fizeram menos em um teste são menos propensas a relatar suas notas, então os dados faltantes não são aleatórios, mas relacionados às notas em si.

Consequências dos Dados Faltantes

Quando dados estão faltando, isso pode causar vários problemas na pesquisa:

  • Tendência: Se os pesquisadores analisam apenas dados completos, podem não ter uma imagem precisa. Por exemplo, se pessoas com rendas mais baixas são menos propensas a responder a uma pesquisa, os resultados podem sugerir que a renda é maior do que realmente é.

  • Eficiência Reduzida: Quando dados estão faltando, pode ser mais difícil encontrar associações entre variáveis, diminuindo assim a eficiência da análise.

Estratégias para Lidar com Dados Faltantes

Os pesquisadores têm diferentes métodos para lidar com dados faltantes. Duas estratégias comuns incluem:

  1. Análise de Registros Completos (CRA): Esse método usa apenas dados de indivíduos que responderam todas as perguntas relevantes. Embora seja simples, isso pode ignorar informações valiosas de quem tem dados faltantes, o que pode levar a viés.

  2. Imputação Múltipla (MI): Essa é uma abordagem mais avançada. Em vez de apenas ignorar dados faltantes, essa técnica cria vários conjuntos de dados diferentes preenchendo os valores faltantes com base na previsibilidade. Depois, esses conjuntos são analisados separadamente e os resultados são combinados para dar uma estimativa mais precisa.

Variáveis Auxiliares

Variáveis auxiliares são informações adicionais que não entram na análise principal, mas podem ajudar a entender ou preencher lacunas nos dados. Por exemplo, se estamos estudando como a educação de um pai afeta a inteligência de uma criança, registros educacionais podem ser uma variável auxiliar. Essas podem ajudar a melhorar a precisão das previsões quando os dados sobre o QI da criança estão faltando.

Incluir variáveis auxiliares pode ajudar porque:

  • Elas podem fornecer contexto para os dados faltantes, tornando mais plausível assumir que os dados ausentes poderiam estar faltando ao acaso.
  • Elas podem melhorar a precisão das estimativas ao preencher valores faltantes.

No entanto, usar variáveis auxiliares não é sem desafios. Se essas variáveis também tiverem dados faltantes, isso pode complicar ainda mais as coisas.

A Importância do Contexto da Pesquisa

Compreender o contexto e o histórico da pesquisa é crucial ao lidar com dados faltantes. Por exemplo, se estamos estudando o tabagismo materno e o QI infantil, é essencial reconhecer que dados faltantes podem ocorrer com mais frequência em certos grupos, como aqueles com menor status socioeconômico.

Mudanças na forma como os dados são coletados ou nas características dos participantes também podem afetar os dados faltantes. É por isso que os pesquisadores precisam pensar com cuidado sobre quais variáveis auxiliares incluir e as potenciais relações entre as variáveis.

Exemplo de Caso: Tabagismo Materno e QI Infantil

Para ilustrar esses conceitos, vamos considerar um estudo que analisa como o tabagismo materno durante a gravidez afeta o QI de uma criança aos 15 anos. Neste estudo, os pesquisadores coletaram dados de um grande grupo de mães expostas a diferentes níveis de tabagismo durante a gravidez e mediram os escores de QI de seus filhos.

Os pesquisadores enfrentaram desafios porque uma quantidade significativa de dados estava faltando. Isso os levou a considerar usar variáveis auxiliares, como escores de QI anteriores ou conquistas educacionais, para ajudar a completar o quadro.

Ao incluir essas variáveis auxiliares, eles esperavam reduzir o viés em suas estimativas. Eles realizaram várias análises para ver como diferentes modelos afetariam o resultado.

  1. Eles primeiro olharam os registros completos, depois incluíram uma variável auxiliar de cada vez.
  2. Eles verificaram como a inclusão de diferentes variáveis auxiliares afetava suas estimativas e a qualidade geral dos dados que tinham.

A análise mostrou que incluir escores de QI de idades anteriores ajudou a fornecer estimativas mais precisas em comparação com a exclusão total das variáveis auxiliares.

Estudo de Simulação: Avaliando Dados Faltantes

Para entender melhor o impacto dos dados faltantes, os pesquisadores costumam realizar estudos de simulação. Esses estudos criam conjuntos de dados imaginários que imitam cenários da vida real para explorar como diferentes abordagens para dados faltantes podem funcionar.

Em um estudo, os pesquisadores geraram conjuntos de dados com características conhecidas. Eles intencionalmente tornaram certos pontos de dados ausentes e testaram os diferentes métodos que haviam discutido anteriormente.

O objetivo era ver quão bem cada método poderia recuperar as informações faltantes e reduzir o viés. O estudo executou simulações com diferentes graus de dados faltantes e padrões variados de correlação entre as variáveis.

Descobertas da Simulação

  1. Viés do CRA: Os resultados mostraram que usar apenas dados completos frequentemente levava a desfechos tendenciosos quando certos padrões de falta existiam, destacando as limitações do CRA.

  2. Desempenho da Imputação: Métodos que incorporaram variáveis auxiliares geralmente tiveram um desempenho melhor na redução do viés, especialmente quando a variável auxiliar tinha uma forte relação com o resultado dos dados faltantes.

  3. Impacto da Falta de Dados Auxiliares: À medida que aumentava a quantidade de dados faltantes nas variáveis auxiliares, a eficácia de usar essas variáveis para reduzir o viés diminuía.

Conclusão

Na pesquisa, dados faltantes podem apresentar desafios significativos. Compreender os tipos de dados faltantes e as estratégias disponíveis para lidar com isso, incluindo o uso de variáveis auxiliares, é essencial para reduzir o viés e melhorar a qualidade da análise.

Embora métodos como a análise de registros completos possam parecer simples, eles muitas vezes ignoram dados valiosos e podem levar a conclusões imprecisas. Métodos como imputação múltipla, quando combinados com a seleção cuidadosa de variáveis auxiliares, podem proporcionar uma visão mais completa e precisa.

Os pesquisadores também devem considerar o contexto de seus dados, incluindo as relações entre variáveis e a possibilidade de sobreposição nos dados faltantes. Através de uma análise cuidadosa e consideração desses fatores, é possível enfrentar os desafios impostos pelos dados faltantes e tirar conclusões mais confiáveis na pesquisa.

Fonte original

Título: Analyses using multiple imputation need to consider missing data in auxiliary variables.

Resumo: Auxiliary variables are used in multiple imputation (MI) to reduce bias and increase efficiency. These variables may often themselves be incomplete. We explored how missing data in auxiliary variables influenced estimates obtained from MI. We implemented a simulation study with three different missing data mechanisms for the outcome. We then examined the impact of increasing proportions of missing data and different missingness mechanisms for the auxiliary variable on bias of an unadjusted linear regression coefficient and the fraction of missing information. We illustrate our findings with an applied example in the Avon Longitudinal Study of Parents and Children. We found that where complete records analyses were biased, increasing proportions of missing data in auxiliary variables, under any missing data mechanism, reduced the ability of MI including the auxiliary variable to mitigate this bias. Where there was no bias in the complete records analysis, inclusion of a missing not at random auxiliary variable in MI introduced bias of potentially important magnitude (up to 17% of the effect size in our simulation). Careful consideration of the quantity and nature of missing data in auxiliary variables needs to be made when selecting them for use in MI models.

Autores: Paul Madley-Dowd, E. Curnow, R. A. Hughes, R. P. Cornish, K. Tilling, J. Heron

Última atualização: 2023-12-11 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.12.11.23299810.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes