Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Computação# Metodologia

Avaliação de Modelos Espaciais: Insights e Métodos

Este artigo analisa técnicas para avaliar o desempenho de modelos de dados espaciais.

― 11 min ler


Técnicas de Avaliação deTécnicas de Avaliação deModelos Espaciaisespaciais.avaliação de modelos de dadosNovos métodos melhoram a precisão na
Índice

Avaliar como os modelos funcionam com dados espalhados no espaço pode ser complicado. Isso é especialmente verdade quando os pontos de dados não são aleatórios, mas sim organizados em grupos. Ao testar modelos com esses dados, é importante usar técnicas que garantam que os dados usados para teste realmente reflitam novas áreas ou situações, diferentes das que foram usadas para construir o modelo. Se escolhermos os dados de teste aleatoriamente, podemos acabar com dados muito semelhantes aos Dados de Treinamento, o que pode nos dar uma confiança errada no Desempenho do Modelo.

Para lidar com esse desafio, os pesquisadores criaram vários métodos para testar esses tipos de modelos. Muitos desses métodos tentam garantir que, quando o modelo faz previsões, ele precise trabalhar com dados de locais diferentes dos que foi treinado. Apesar desses esforços, ainda não há muitas orientações claras sobre quais métodos de teste são os mais confiáveis.

Realizamos simulações usando cinco métodos de teste comuns para ver como eles se comparam quando aplicados a dados arranjados no espaço. Descobrimos que usar esses métodos de teste que levam em conta o espaço geralmente funciona melhor do que os métodos tradicionais, que simplesmente misturam os dados. Em particular, métodos que combinam dados de observações próximas, mantendo uma distância segura dos dados de treinamento, produzem os resultados mais precisos. Para ajudar outros a usarem essas técnicas, apresentamos uma ferramenta chamada spatialsample, que simplifica a aplicação de testes espaciais em cenários do mundo real.

A Dificuldade de Avaliar Modelos com Dados Espaciais

Avaliar quão bem os modelos prevêem resultados usando dados que têm padrões internos, como dados espaciais, é complexo. Muitas técnicas modernas de aprendizado de máquina, que estão ganhando popularidade, podem se ajustar erroneamente demais aos dados de treinamento. Quando isso acontece, as métricas de avaliação podem parecer fantásticas nos dados de treinamento, mas costumam ter um desempenho ruim em novos dados.

Para verificar se um modelo consegue lidar com novos dados, as abordagens de teste padrão dividem os dados em conjuntos de "treinamento" e "teste". O modelo é treinado usando o conjunto de treinamento e então avaliado em como se sai com o conjunto de teste. No entanto, se os dados usados para teste forem escolhidos aleatoriamente, observações semelhantes podem acabar em ambos os conjuntos, fazendo com que o modelo se saia bem no conjunto de teste sem realmente ser bom em fazer previsões em novos dados.

Uma maneira de resolver esse problema é evitar atribuições aleatórias e em vez disso agrupar os dados com base em suas relações espaciais. Por exemplo, podemos dividir a área em blocos e tratar cada bloco como um único grupo. Fazendo isso, garantimos que as observações usadas para testar estejam distantes dos dados de treinamento, o que deve nos dar uma ideia melhor de como o modelo se comporta na realidade.

Decidir quanta distância colocar entre os conjuntos de treinamento e teste ainda é debatido. Alguns sugerem usar distâncias definidas com base em como os dados se comportam. No entanto, há um consenso de que maior distância entre esses conjuntos leva a estimativas de desempenho mais precisas.

Saber a diferença entre avaliar o desempenho do modelo e descobrir a precisão das previsões de um mapa também é crucial. Testes de precisão de mapa dependem de uma amostra equilibrada para fornecer resultados imparciais, enquanto avaliar modelos com dados espaciais precisa estimar o desempenho sem essas amostras equilibradas. Essa situação ocorre frequentemente em estudos de modelagem.

O Valor da Validação Cruzada Espacial

A validação cruzada espacial, ou CV espacial, tem se mostrado capaz de fornecer estimativas de precisão melhores do que métodos tradicionais. Vários métodos de CV espacial foram sugeridos e muitos mostram melhorias em relação às estratégias de seleção aleatória. No entanto, a falta de comparações diretas entre diferentes métodos de CV espacial torna difícil saber quais funcionam melhor.

Investigamos diversos métodos de validação cruzada espacial usando simulações com modelos de floresta aleatória em dados estruturados espacialmente. Para esclarecer os diferentes métodos, fornecemos uma classificação e explicação dessas abordagens de CV. Em seguida, oferecemos uma revisão detalhada de como esses métodos se saíram em diferentes configurações, dando avaliações comparativas iniciais para muitas dessas técnicas.

No geral, descobrimos que os métodos de CV espacial tendem a fornecer estimativas de desempenho melhores do que abordagens aleatórias. Especificamente, métodos que usam tanto observações próximas quanto zonas de exclusão para manter os dados de treinamento separados dos dados de teste tiveram o melhor desempenho.

Apresentando o spatialsample

O pacote spatialsample foi projetado para preencher uma lacuna nas ferramentas disponíveis para realizar CV espacial. Ele permite que os usuários implementem facilmente métodos de CV espacial populares. A forma como o spatialsample funciona é baseada no mesmo sistema que as ferramentas existentes para divisão de dados, o que permite aos usuários aproveitar outras ferramentas para ajustar e avaliar modelos.

Esse novo pacote é baseado em ferramentas anteriores e as melhora usando pacotes modernos para calcular distâncias em dados geográficos. Ele pode lidar com diferentes unidades e também pode trabalhar com formas poligonais em vez de apenas dados de pontos. Essa flexibilidade permite que avalie distâncias adequadamente, mesmo em cenários geográficos complexos.

Visão Geral dos Métodos de Reamostragem

Em nossa avaliação, focamos nos métodos de CV espacial mais comuns encontrados na literatura existente. Enfatizamos particularmente métodos que dividem automaticamente os dados em grupos, seja aleatoriamente ou com base em regras espaciais. Não incluímos métodos que atribuem dados com base em limites predeterminados.

Avaliar o desempenho de um modelo com base nos mesmos dados usados para ajustá-lo, conhecido como "desempenho aparente", tende a dar resultados excessivamente otimistas. Para comparação, incluímos avaliações de erro aparente, embora não recomendemos isso como uma prática ideal.

Validação Cruzada V-fold Aleatorizada

A CV V-fold, ou CV k-fold, é um dos métodos de teste mais amplamente usados. Nesse método, cada observação é atribuída aleatoriamente a um dos folds. Os modelos são então treinados nos dados restantes e testados nos dados omitidos. Embora a CV V-fold seja geralmente vista como a menos tendenciosa, muitas vezes superestima o desempenho do modelo, especialmente quando os dados têm estruturas espaciais.

Validação Cruzada Bloqueada

Uma maneira eficaz de realizar a CV espacial é dividir a área de estudo em polígonos usando uma grade. Cada observação dentro de um polígono específico é atribuída como um grupo. Esse método pode ajudar a resolver problemas que surgem da CV V-fold aleatória, fornecendo mais distância entre os conjuntos de treinamento e teste.

No entanto, um desafio ocorre ao usar grades padrão, pois elas nem sempre se alinham com características relevantes no ambiente. Um planejamento cuidadoso da grade é necessário para criar blocos significativos, o que pode ser difícil às vezes.

Validação Cruzada Agrupada

Outro método de CV espacial agrupa observações em clusters com base em seu arranjo. Cada cluster é tratado como um fold único na CV V-fold. Essa técnica permite flexibilidade, já que diferentes algoritmos de clustering podem produzir resultados variados.

Embora o clustering seja geralmente mais eficaz do que um bloqueio espacial simples, ele ainda pode produzir folds que combinam áreas não relacionadas. No entanto, o clustering frequentemente leva a limites de grupo mais sensatos.

CV Buffered Leave-One-Observation-Out

Esse método realiza a CV leave-one-out, onde cada observação é tratada separadamente. Ele garante que os dados de treinamento sejam distintos dos dados de teste, tornando-o mais robusto contra as várias configurações usadas. Os tamanhos das zonas de exclusão podem variar com base em diferentes cálculos.

CV Leave-One-Disc-Out

Essa abordagem expande o método buffered leave-one-out ao incluir mais observações próximas de cada observação de teste. Avalia modelos contra várias observações próximas, o que pode fornecer uma avaliação de desempenho mais abrangente.

Visão Geral da Simulação

Para comparar as técnicas de teste mencionadas, simulamos paisagens representando diferentes instâncias do mesmo processo gerador de dados. Cada paisagem foi composta de inúmeras variáveis calculadas por métodos consistentes.

Os preditores simulados incluíram campos aleatórios criados usando software estatístico projetado para esse fim. Esses preditores foram então usados para criar uma variável alvo que reflete as relações que queremos modelar. Um exemplo dos valores agrupados espacialmente produzidos por essa simulação mostra o agrupamento ambiental com base nas variáveis de interesse.

Para cada paisagem simulada, dividimos os dados e avaliamos as várias abordagens de CV. Coletamos dados de forma independente para cada simulação, resultando em folds únicos em cada instância.

Avaliação do Modelo

Para nossas simulações, usamos florestas aleatórias para modelar a variável alvo, utilizando variáveis selecionadas no processo. Em seguida, medimos a precisão do modelo usando métricas de erro de previsão. Também comparamos os resultados das várias abordagens de CV para ver quão bem elas estimaram o desempenho do modelo.

Ao longo de nossas investigações, esperávamos que a distância ideal entre os dados de treinamento e teste estivesse relacionada ao intervalo de dependência espacial nos dados. Usamos ferramentas especializadas para medir essas distâncias.

Resultados e Discussão: Como a CV Espacial Melhora o Desempenho do Modelo

Nossas descobertas indicam que a CV espacial fornece estimativas mais precisas do desempenho do modelo em comparação com métodos não espaciais padrão, que geram resultados excessivamente otimistas. As melhores estimativas surgiram ao testar métodos que garantiram distâncias apropriadas entre os conjuntos.

Os métodos de CV agrupados espacialmente e as abordagens leave-one-disc-out tendem a fornecer as avaliações de desempenho mais confiáveis. Em alguns casos, se muitos dados foram removidos, isso levou a estimativas excessivamente cautelosas.

Impacto das Escolhas de Parâmetros

Diferentes configurações dos métodos de CV influenciaram os resultados, mostrando que as melhores configurações separaram efetivamente os conjuntos de treinamento e teste. Os achados sugeriram que os métodos de CV espacial tiveram o melhor desempenho quando as observações estavam afastadas o suficiente para que não houvesse correlação espacial entre elas.

A análise revelou que os métodos de clustering espacial mostraram o melhor desempenho em configurações variadas. Por outro lado, a CV buffered leave-one-out muitas vezes retornou resultados variáveis, dependendo dos tamanhos dos buffers.

A Importância da Distância

Como recomendação, usar métodos baseados em distância que mantenham separações entre os dados de treinamento e teste é crucial para estimar com precisão o desempenho do modelo. Dependendo da natureza esperada dos dados, diferentes métodos podem ser necessários para garantir boas avaliações.

Embora este artigo tenha se concentrado em um design de simulação específico, é essencial reconhecer que dados do mundo real podem não se encaixar em padrões organizados. Técnicas não examinadas aqui podem ser mais adequadas em cenários onde os dados estão distribuídos de forma desigual.

Conclusão: O Papel Essencial da CV Espacial

Em conclusão, aplicar a CV espacial é crucial para avaliar modelos preditivos construídos com dados estruturados espacialmente. Abordagens que usam zonas de exclusão em torno de grupos de observações adjacentes geralmente produzem estimativas de desempenho mais precisas. As avaliações mais eficazes ocorrem quando os dados de treinamento e teste estão suficientemente distantes para evitar qualquer dependência espacial entre eles.

Os resultados de nossas simulações destacam a importância de planejar cuidadosamente as estratégias de CV para obter avaliações confiáveis, melhorando assim o desempenho do modelo em aplicações do mundo real.

Fonte original

Título: Assessing the performance of spatial cross-validation approaches for models of spatially structured data

Resumo: Evaluating models fit to data with internal spatial structure requires specific cross-validation (CV) approaches, because randomly selecting assessment data may produce assessment sets that are not truly independent of data used to train the model. Many spatial CV methodologies have been proposed to address this by forcing models to extrapolate spatially when predicting the assessment set. However, to date there exists little guidance on which methods yield the most accurate estimates of model performance. We conducted simulations to compare model performance estimates produced by five common CV methods fit to spatially structured data. We found spatial CV approaches generally improved upon resubstitution and V-fold CV estimates, particularly when approaches which combined assessment sets of spatially conjunct observations with spatial exclusion buffers. To facilitate use of these techniques, we introduce the `spatialsample` package which provides tooling for performing spatial CV as part of the broader tidymodels modeling framework.

Autores: Michael J Mahoney, Lucas K Johnson, Julia Silge, Hannah Frick, Max Kuhn, Colin M Beier

Última atualização: 2023-03-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.07334

Fonte PDF: https://arxiv.org/pdf/2303.07334

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes