Avançando a Máscara de Nuvem na Ciência Atmosférica
Pesquisas mostram como a IA tá melhorando as técnicas de mascaramento em nuvem pra dados de satélite.
― 8 min ler
Índice
- Benchmark de Cloud Masking
- Visão Geral do Estudo
- Fonte de Dados
- Pré-processamento dos Dados
- Arquitetura do Modelo
- Registro e Resultados
- Infraestrutura de Computação
- Modificações no Código
- Diferentes Abordagens
- Análise dos Resultados
- Desafios na Reprodutibilidade
- Conclusão
- Trabalho Futuro
- Fonte original
- Ligações de referência
A inteligência artificial (IA) tá se tornando importante em várias áreas, mas alguns campos científicos ainda não aproveitaram todo o seu potencial. Tem uma necessidade de iniciativas que aumentem a conscientização e incentivem a inovação nessas áreas. Um desses esforços é o MLCommons, uma comunidade que apoia a IA na ciência através de benchmarking.
Esse artigo foca em um benchmark científico específico chamado "cloud masking". Esse benchmark é importante para as ciências atmosféricas. Ele tem como objetivo identificar quais partes das Imagens de Satélite têm nuvens e quais não têm. Esse processo é essencial para estimar temperaturas a partir de dados de satélite de forma precisa.
Benchmark de Cloud Masking
O benchmark de cloud masking envolve o uso de imagens de satélite para determinar os pixels de nuvem. A Agência Espacial Europeia lançou vários satélites, incluindo o Sentinel-3, para monitorar o meio ambiente global. O Sentinel-3 ajuda a coletar dados sobre a topografia da superfície do oceano e a temperatura da superfície. O primeiro passo na análise dessas temperaturas é o cloud masking. As nuvens podem distorcer as leituras de temperatura, então identificar e mascará-las é vital.
Existem vários métodos para cloud masking. Esses vão desde técnicas simples baseadas em regras até abordagens mais complexas de aprendizado profundo. Métodos baseados em regras podem usar testes de limiar ou masking bayesiano. A abordagem bayesiana aplica informações meteorológicas anteriores para determinar a probabilidade de cada pixel ser nublado ou limpo. Por outro lado, métodos de aprendizado profundo tratam o cloud masking como uma tarefa de segmentação de imagem, com modelos como U-Net sendo amplamente utilizados.
O benchmark de cloud masking ajuda a avaliar como diferentes modelos se saem nessa tarefa. O objetivo é criar máscaras de nuvem precisas a partir de imagens de satélite, o que, por sua vez, permite estimativas de temperatura mais precisas.
Visão Geral do Estudo
Esse trabalho envolveu submissões para o benchmark de cloud masking do MLCommons e foi conduzido em sistemas de computação de alto desempenho (HPC) em duas universidades. O estudo incluiu a atualização e modificações na implementação de referência do benchmark de cloud masking para permitir a Parada Antecipada durante o treinamento.
O benchmark foi executado em diferentes sistemas, incluindo desktops comuns e clusters HPC. O código modificado e os resultados estão disponíveis para que outros possam usar e construir em cima.
Fonte de Dados
O conjunto de dados usado para esse benchmark consiste em uma quantidade substancial de imagens de satélite derivadas do satélite Sentinel-3. Ele inclui 180GB de imagens, com 1070 imagens individuais capturadas em diferentes horários do dia. Essas imagens vêm com máscaras de nuvem geradas usando técnicas bayesianas.
O conjunto de dados é dividido em conjuntos de treinamento e teste, permitindo uma avaliação abrangente dos algoritmos de cloud masking. O conjunto de treinamento contém 970 imagens, enquanto o conjunto de teste tem 100 imagens. Cada imagem vem acompanhada de vários canais que fornecem diferentes tipos de dados, como brilho e refletância.
Pré-processamento dos Dados
Antes de usar as imagens de satélite para treinamento e teste, são necessárias etapas de pré-processamento. Na fase de treinamento, as imagens são cortadas e divididas em pequenas partes. Esse processo ajuda a reduzir a quantidade de dados que o modelo precisa lidar de uma vez. Para o conjunto de testes, as imagens são cortadas em partes sem randomização.
Isso significa que cada imagem de teste é dividida em unidades menores, o que permite que o modelo as processe mais facilmente. Depois de fazer previsões, os patches de saída são reconstruídos em máscaras de tamanho total para que possam ser avaliadas em relação à verdade de referência gerada.
Arquitetura do Modelo
O benchmark usa um modelo U-Net para cloud masking. Essa arquitetura é projetada para gerar um rótulo para cada pixel em uma imagem, em vez de fornecer um único rótulo para toda a imagem. O modelo primeiro captura informações contextuais maiores em um caminho de contração e depois usa um caminho de expansão simétrica para melhorar a resolução, permitindo uma melhor localização da saída.
Registro e Resultados
O registro desempenha um papel importante na gestão de experimentos e na reprodução de resultados. A biblioteca de registro padrão, MLPerf/MLlog, é utilizada para gerar logs que contêm informações-chave sobre cada execução. No entanto, os logs podem não ser facilmente legíveis para humanos. Para resolver isso, algumas equipes usam ferramentas de registro alternativas que fornecem saídas mais claras.
Os resultados do benchmark incluem tanto métricas científicas, como precisão, quanto métricas de desempenho, como o tempo gasto para treinamento e inferência.
Infraestrutura de Computação
O estudo foi conduzido usando várias infraestruturas de computação. Cada sistema tem características diferentes que afetam seu desempenho na execução do benchmark. Por exemplo, o NYU Greene HPC é um cluster de propósito geral que pode lidar com vários tipos e tamanhos de trabalho, enquanto o UVA Rivanna HPC é construído em um modelo de condomínio onde diferentes grupos contribuem com recursos.
Os resultados do processo de benchmarking destacam as capacidades de diferentes sistemas ao executar os algoritmos de cloud masking.
Modificações no Código
A implementação de referência para esse benchmark foi fornecida pelo Rutherford Appleton Laboratory. Algumas modificações foram feitas para melhorar sua funcionalidade, incluindo a adição de parada antecipada para evitar overfitting. A parada antecipada permite que o modelo pare o treinamento se o desempenho não melhorar após um número definido de épocas.
As modificações feitas pelas equipes envolviam melhorar os cálculos de precisão e possibilitar uma experimentação mais fácil com hiperparâmetros.
Diferentes Abordagens
As submissões ao benchmark de cloud masking diferiram entre as duas universidades. A equipe da NYU optou por uma abordagem de script de lote manual, enquanto a equipe da UVA utilizou uma ferramenta chamada cloudmesh-ee que simplifica a gestão de buscas de hiperparâmetros e execuções de experimentos.
Cloudmesh-ee permite que os usuários especifiquem intervalos para vários hiperparâmetros em um único arquivo de configuração, tornando o processo mais eficiente do que criar vários arquivos separados.
Análise dos Resultados
Os resultados dos benchmarks mostraram desempenho para treinamento e inferência em diferentes sistemas. A equipe da NYU treinou seu modelo por 200 épocas, empregando parada antecipada com uma paciência de 25 épocas. Eles observaram flutuações na perda de validação, que podem ser atribuídas à natureza dos dados de verdade de referência.
A precisão final obtida do modelo no NYU Greene foi de 0.896, enquanto a precisão média de inferência em cinco execuções foi de 0.889.
Em contraste, a equipe da UVA relatou resultados usando cloudmesh-ee, que proporcionou um processo mais simplificado para realizar seus benchmarks. A comparação entre plataformas indicou variações de desempenho, com cada plataforma mostrando diferentes forças em termos de velocidade e eficiência.
Desafios na Reprodutibilidade
Durante o processo de benchmarking, alguns desafios surgiram em relação à reprodutibilidade. Ao usar geradores de números aleatórios, sementes definidas nem sempre levam aos mesmos resultados em diferentes experimentos, especialmente em GPUs. Precauções extras foram tomadas fornecendo inicializações de sementes adicionais para várias bibliotecas.
Conclusão
Esse estudo apresenta a submissão ao benchmark de cloud masking do MLCommons, destacando a importância do cloud masking nas ciências atmosféricas. O processo de benchmarking demonstra o potencial da IA em melhorar tarefas científicas, ao mesmo tempo que observa a necessidade de uma infraestrutura adequada, manuseio de dados e técnicas de treinamento de modelos.
O trabalho mostra os esforços colaborativos de equipes de diferentes universidades e enfatiza a importância de códigos e benchmarks que sejam acessíveis à comunidade mais ampla. Ao compartilhar resultados e metodologias, futuros avanços em cloud masking e aplicações de IA relacionadas podem ser construídos sobre isso.
Trabalho Futuro
Olhando para frente, há muitas oportunidades para expandir essa pesquisa. Melhorias contínuas nas técnicas de cloud masking impulsionadas por IA podem aprimorar ainda mais a precisão e eficiência para a análise de dados de satélite.
Investigar modelos e metodologias adicionais poderia levar a um desempenho melhor e a novas percepções nas ciências atmosféricas. O compartilhamento de benchmarks e resultados dentro da comunidade científica também incentivará a colaboração e inovação na aplicação de IA em vários campos científicos.
À medida que novas tecnologias e técnicas surgem, o potencial da IA na pesquisa continua a crescer, abrindo caminho para descobertas e avanços mais significativos na compreensão do nosso ambiente.
Título: MLCommons Cloud Masking Benchmark with Early Stopping
Resumo: In this paper, we report on work performed for the MLCommons Science Working Group on the cloud masking benchmark. MLCommons is a consortium that develops and maintains several scientific benchmarks that aim to benefit developments in AI. The benchmarks are conducted on the High Performance Computing (HPC) Clusters of New York University and University of Virginia, as well as a commodity desktop. We provide a description of the cloud masking benchmark, as well as a summary of our submission to MLCommons on the benchmark experiment we conducted. It includes a modification to the reference implementation of the cloud masking benchmark enabling early stopping. This benchmark is executed on the NYU HPC through a custom batch script that runs the various experiments through the batch queuing system while allowing for variation on the number of epochs trained. Our submission includes the modified code, a custom batch script to modify epochs, documentation, and the benchmark results. We report the highest accuracy (scientific metric) and the average time taken (performance metric) for training and inference that was achieved on NYU HPC Greene. We also provide a comparison of the compute capabilities between different systems by running the benchmark for one epoch. Our submission can be found in a Globus repository that is accessible to MLCommons Science Working Group.
Autores: Varshitha Chennamsetti, Gregor von Laszewski, Ruochen Gu, Laiba Mehnaz, Juri Papay, Samuel Jackson, Jeyan Thiyagalingam, Sergey V. Samsonau, Geoffrey C. Fox
Última atualização: 2024-05-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2401.08636
Fonte PDF: https://arxiv.org/pdf/2401.08636
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.