Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas

Melhorando Previsões de Dados Energéticos com Técnicas de Imagem

Este estudo avalia métodos modernos para preencher lacunas nos dados de energia.

― 10 min ler


Avanços na Imputação deAvanços na Imputação deDados Energéticospara dados de energia faltantes.Novas técnicas melhoram as previsões
Índice

Nos últimos anos, gerenciar o uso de energia em prédios se tornou cada vez mais importante. Isso se deve ao crescimento de dispositivos inteligentes conectados pela internet e ao aumento de dados energéticos. Mas, os dados coletados geralmente têm lacunas, dificultando a previsão precisa. Essas lacunas vêm de várias fontes, como falhas nos equipamentos ou sensores, e podem levar a decisões ruins na gestão dos sistemas de energia.

Para melhorar nossa capacidade de prever o uso de energia, pesquisadores têm buscado maneiras de preencher essas lacunas nos dados. Tradicionalmente, a maioria dos esforços focou em lacunas aleatórias ou períodos curtos de dados ausentes. Mas, muitos estudos não testaram esses métodos em conjuntos de dados diversos, tornando difícil saber quais técnicas funcionam melhor. Além disso, tem técnicas modernas do campo da visão computacional, como métodos de preenchimento de imagem, que ainda não foram amplamente usadas na imputação de dados energéticos.

Esse estudo tem como objetivo avaliar uma técnica moderna de imagem chamada Convolução Parcial (PConv) e comparar sua eficácia com outros métodos de preenchimento de dados energéticos ausentes. Ao reformular os dados de energia em imagens, conseguimos acessar informações mais estruturadas sobre os dados e melhorar nossas previsões para os valores que faltam.

Importância dos Dados Energéticos

Conseguir prever quanto de energia prédios vão usar é crucial para uma gestão eficiente de energia. Isso é especialmente verdade dado o crescente preocupação com o consumo de energia e o meio ambiente. Previsões precisas podem ajudar a reduzir desperdícios e otimizar uso de energia, beneficiando tanto os gestores de prédios quanto o meio ambiente.

Com o crescimento da tecnologia inteligente em prédios, mais dados sobre o uso de energia têm se tornado disponíveis. Isso inclui dados de sensores que monitoram o consumo de energia em tempo real. Mas, surgem problemas devido à natureza incompleta dos dados, o que afeta qualquer tentativa de analisá-los ou utilizá-los de forma eficaz. Muitas vezes, os dados coletados de vários sistemas podem ser inconsistentes ou ter lacunas, dificultando a tomada de decisões informadas sobre a gestão de energia.

Desafios com Dados Ausentes

Dados ausentes podem vir de várias fontes, incluindo malfuncionamentos de equipamentos, erros humanos, ou até mesmo problemas com os próprios sensores. A falta dessa informação pode causar sérios problemas, pois pode levar a previsões incorretas e oportunidades perdidas para melhorias na gestão de energia. Em alguns prédios comerciais, a falta de dados pode resultar em desperdício de energia de 15% a 30%.

Pesquisadores já trabalharam anteriormente em métodos para preencher essas lacunas de dados ausentes, mas ainda existem desafios significativos. Muitas técnicas existentes carecem de validação usando conjuntos de dados diversos, dificultando a avaliação de seu desempenho em diferentes tipos de prédios e medidores. Além disso, tem havido uso limitado de técnicas avançadas, como métodos modernos de aprendizado profundo, para lidar com esses problemas.

O Potencial das Técnicas de Imagem

Com padrões regulares frequentemente vistos nos dados de energia-como ciclos diários ou semanais-métodos de visão computacional, que focam em dados de imagem, podem oferecer novas soluções. Uma abordagem promissora é a Convolução Parcial, que tem sido bem-sucedida em preenchimento de imagem ao lidar efetivamente com padrões complexos de lacunas. Ao aplicar essa técnica, pode ser possível aprender tendências subjacentes nos dados e gerar previsões mais precisas para os valores energéticos que faltam.

Esse estudo vai usar o maior conjunto de dados de energia de prédios publicamente acessível que inclui inúmeros medidores de energia globalmente. Ao comparar o desempenho do PConv com modelos tradicionais, como Redes Neurais Convolucionais (CNNs) e um método simples de persistência, essa pesquisa visa demonstrar a eficácia dos métodos baseados em imagem na melhoria da imputação de dados de energia.

Metodologia

A pesquisa envolve reformular os dados de energia em um formato bidimensional que reflete o tempo da semana e as semanas do ano. Essa abordagem permite a aplicação de técnicas avançadas de preenchimento de imagem. O estudo também vai cobrir como diferentes modelos performam em níveis variados de ausência de dados.

Fonte de Dados

A análise utiliza dados do Building Data Genome 2.0 (BDG2), que consiste em leituras horárias de milhares de medidores de energia em uma ampla gama de prédios. Esse conjunto de dados é ideal para testar o desempenho de vários métodos de imputação de dados energéticos devido à sua diversidade e confiabilidade.

Preparação dos Dados

Antes de rodar quaisquer modelos, o conjunto de dados precisa passar por várias etapas de pré-processamento:

  1. Limpeza dos Dados: Essa etapa é necessária para remover erros ou inconsistências nas leituras de energia. Ao focar em medidores com baixas taxas de ausência, garante-se que apenas dados de qualidade estejam sendo analisados.

  2. Normalização dos Valores: As leituras dos medidores de energia são escaladas para uma faixa comum. Isso ajuda os modelos a trabalharem de forma mais eficaz, já que redes neurais são sensíveis à escala dos dados de entrada.

  3. Divisão dos Dados: O conjunto de dados é dividido em conjuntos de treino, validação e teste para garantir que os modelos sejam treinados em uma faixa diversificada de dados, enquanto também são testados em dados não vistos para avaliar a generalizabilidade.

  4. Aumento de Dados: Para lidar com o desafio de dados limitados, técnicas como deslocar e inverter os dados de séries temporais são utilizadas para criar mais exemplos de treinamento.

Tipos de Dados Ausentes

O estudo examina duas principais categorias de dados ausentes:

  1. Dados Ausentes Aleatórios: Essas são lacunas esporádicas nos dados, como leituras ausentes em certos dias devido a problemas ocasionais. Essas lacunas podem variar em tamanho e precisam ser tratadas de maneira diferente das lacunas contínuas.

  2. Dados Ausentes Contínuos: Isso se refere a períodos mais longos de valores ausentes, como leituras ausentes por uma semana ou mais. Esse tipo de dado geralmente é mais desafiador para imputar, pois fornece menos pontos de referência para os modelos.

Modelos para Imputação

Vários métodos de imputação são testados neste estudo para avaliar sua eficácia em preencher dados energéticos ausentes:

  1. Modelo de Persistência Semanal: Esse modelo simples de referência prevê o uso de energia futura com base em valores passados da mesma semana. Embora não seja sofisticado, oferece um ponto de comparação para modelos mais avançados.

  2. Redes Neurais Convolucionais (CNNs): Esses modelos são bem adequados para processar dados multidimensionais. Uma CNN unidimensional (1D-CNN) é usada para dados de séries temporais padrão, enquanto uma CNN bidimensional (2D-CNN) é aplicada a dados reformulados que retêm o contexto espacial das leituras de energia.

  3. Convolução Parcial (PConv): Essa técnica avançada de preenchimento de imagem é avaliada pela sua capacidade de aprender e representar informações contextuais nos dados de energia. Utilizando uma arquitetura U-Net, o PConv visa obter resultados superiores no preenchimento das lacunas.

Experimentos e Resultados

Os experimentos envolvem aplicar cada modelo ao conjunto de dados, testando seu desempenho na imputação de dados ausentes, tanto aleatórios quanto contínuos. Várias métricas são empregadas para avaliar os modelos, com ênfase em Erro Quadrático Médio (MSE) e valores de R-quadrado.

Métricas de Avaliação

  1. Erro Quadrático Médio (MSE): Essa métrica mede a média das diferenças quadradas entre valores previstos e leituras reais, fornecendo uma avaliação direta da precisão da previsão.

  2. Valor de R-quadrado: Essa métrica reflete a capacidade do modelo de capturar tendências nos dados. Valores mais altos de R-quadrado indicam melhor desempenho na previsão do padrão geral de uso de energia.

Análise de Desempenho

Os resultados revelam que modelos que utilizam um contexto bidimensional, como PConv e 2D-CNN, superam significativamente aqueles que usam uma abordagem unidimensional. Para dados ausentes aleatórios, o PConv demonstra os melhores resultados com um MSE consideravelmente mais baixo em comparação a outros modelos.

Por outro lado, quando se trata de dados ausentes contínuos, o desempenho é mais variável, destacando a dificuldade aumentada em prever dados com precisão nessas condições. Mesmo com técnicas avançadas, à medida que a porcentagem de dados ausentes contínuos aumenta, o poder preditivo de todos os modelos tende a diminuir.

Além disso, o desempenho varia conforme o tipo de medidor. Por exemplo, o PConv constantemente gera as previsões mais precisas, especialmente em medidores de eletricidade, que apresentam padrões de consumo mais previsíveis. Contudo, o modelo tem dificuldades com medidores dependentes do clima, como medidores de água quente e vapor, onde padrões de consumo irregulares afetam o desempenho.

Discussão

O estudo enfatiza o potencial promissor de empregar técnicas baseadas em imagem para a imputação de dados energéticos. A capacidade do PConv de utilizar aprendizado contextual leva a previsões melhores em comparação com métodos tradicionais, especialmente ao trabalhar com conjuntos de dados reformulados em duas dimensões. No entanto, surgem limitações ao enfrentar dados contínuos ausentes a longo prazo, sinalizando a necessidade de mais refinamento e exploração.

Para melhorar a precisão e a confiabilidade dos modelos, integrar dados contextuais adicionais-como condições climáticas e padrões de ocupação-pode aumentar significativamente as previsões. Essas integrações dariam uma visão mais holística do consumo de energia e permitiriam que os modelos se baseassem em conjuntos de dados mais amplos.

Conclusão

Esse estudo destaca a importância de métodos avançados de imputação para enfrentar o desafio dos dados energéticos ausentes em prédios. A aplicação de PConv e técnicas semelhantes baseadas em imagem abre novas possibilidades para previsões mais precisas, o que pode levar a melhores estratégias de gestão de energia.

Embora as descobertas sejam encorajadoras, ainda há necessidade de pesquisa contínua para lidar com os desafios impostos pelos dados ausentes, especialmente em cenários de previsão a longo prazo. Trabalhos futuros podem se concentrar nos benefícios de incorporar fluxos de dados diversos para aprimorar ainda mais as capacidades preditivas.

Ao unir séries temporais de energia com técnicas avançadas de aprendizado de máquina, esta pesquisa fornece um framework para melhorar a análise de dados de consumo de energia, com potencial para aplicações amplas em gestão de prédios, planejamento urbano e sustentabilidade ambiental.

Fonte original

Título: Filling time-series gaps using image techniques: Multidimensional context autoencoder approach for building energy data imputation

Resumo: Building energy prediction and management has become increasingly important in recent decades, driven by the growth of Internet of Things (IoT) devices and the availability of more energy data. However, energy data is often collected from multiple sources and can be incomplete or inconsistent, which can hinder accurate predictions and management of energy systems and limit the usefulness of the data for decision-making and research. To address this issue, past studies have focused on imputing missing gaps in energy data, including random and continuous gaps. One of the main challenges in this area is the lack of validation on a benchmark dataset with various building and meter types, making it difficult to accurately evaluate the performance of different imputation methods. Another challenge is the lack of application of state-of-the-art imputation methods for missing gaps in energy data. Contemporary image-inpainting methods, such as Partial Convolution (PConv), have been widely used in the computer vision domain and have demonstrated their effectiveness in dealing with complex missing patterns. To study whether energy data imputation can benefit from the image-based deep learning method, this study compared PConv, Convolutional neural networks (CNNs), and weekly persistence method using one of the biggest publicly available whole building energy datasets, consisting of 1479 power meters worldwide, as the benchmark. The results show that, compared to the CNN with the raw time series (1D-CNN) and the weekly persistence method, neural network models with reshaped energy data with two dimensions reduced the Mean Squared Error (MSE) by 10% to 30%. The advanced deep learning method, Partial convolution (PConv), has further reduced the MSE by 20-30% than 2D-CNN and stands out among all models.

Autores: Chun Fu, Matias Quintana, Zoltan Nagy, Clayton Miller

Última atualização: 2023-07-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.05926

Fonte PDF: https://arxiv.org/pdf/2307.05926

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes