Modelos de Privacidade em Edifícios Inteligentes e Previsões de CO2
Este artigo analisa como os modelos de privacidade afetam o monitoramento dos níveis de CO2 em prédios inteligentes.
― 10 min ler
Índice
Edifícios Inteligentes estão se tornando mais comuns, especialmente em lugares como universidades e escritórios. Eles coletam um monte de dados das pessoas que os usam todo dia. Isso levanta preocupações sobre Privacidade. As pessoas podem ficar preocupadas com como seus dados são coletados e usados. Para lidar com essas preocupações, modelos de privacidade como o modelo SITA foram criados. O modelo SITA foca em como dados sobre onde as pessoas estão, sua identidade, quando usam o prédio e quais atividades fazem podem ser gerenciados para proteger a privacidade, enquanto ainda permite a análise de dados.
Nesse artigo, olhamos como usar um modelo de privacidade afeta a previsão dos níveis de CO2 em edifícios inteligentes. Discutimos a importância de monitorar o CO2, seu impacto na saúde e como os edifícios inteligentes coletam esses dados através de sensores. Depois, exploramos como diferentes configurações de privacidade podem mudar a eficácia das previsões de dados. Por fim, apresentamos os resultados dos experimentos que realizamos e compartilhamos nossas opiniões sobre as implicações para privacidade e utilidade.
Importância da Qualidade do Ar Interno
A qualidade do ar interno pode afetar muito a saúde e o conforto das pessoas. Estudos mostraram que o ar de má qualidade pode levar a problemas de saúde como dores de cabeça, cansaço e outros sintomas comuns conhecidos como Síndrome do Edifício Doente. Os níveis de CO2 em espaços internos são um indicador importante da qualidade do ar. Altos níveis de CO2 podem causar efeitos sérios na saúde, incluindo redução da função cognitiva.
Dado esses riscos, é crucial monitorar os níveis de CO2 em edifícios inteligentes. Com a ajuda de sensores, os gerentes de prédio podem acompanhar a qualidade do ar e fazer as mudanças necessárias para garantir um ambiente saudável. Assim, eles não só melhoram o conforto dos ocupantes, mas também cuidam da segurança e bem-estar deles.
Edifícios Inteligentes e IoT
Edifícios inteligentes utilizam a Internet das Coisas (IoT) para coletar e analisar dados. IoT envolve o uso de vários dispositivos e sensores conectados à internet para coletar informações. Em edifícios inteligentes, múltiplos sensores são instalados para monitorar várias condições, incluindo temperatura, ocupação e níveis de CO2. Esses dados são processados para fornecer insights que ajudam a gerenciar as operações do edifício de forma mais eficiente.
Por exemplo, edifícios inteligentes podem usar esses dados para automatizar tarefas como ajustar sistemas de aquecimento e resfriamento com base na ocupação. Assim, eles podem economizar energia e melhorar o conforto. Mas, por mais benéficas que sejam essas tecnologias, elas levantam questões importantes sobre privacidade.
Preocupações com a Privacidade
À medida que os edifícios inteligentes coletam informações detalhadas sobre as atividades e movimentos das pessoas, as preocupações com a privacidade aumentam. Muitas pessoas se sentem desconfortáveis com como seus dados são coletados, quem tem acesso a eles e como são usados. Uma pesquisa mostrou que, enquanto muitas pessoas estão confortáveis com a coleta de dados, elas preferem que suas informações pessoais permaneçam anônimas.
Para proteger a privacidade dos usuários, novas leis, como o Regulamento Geral de Proteção de Dados (GDPR) na Europa e a Lei Geral de Proteção de Dados (LGPD) no Brasil, foram estabelecidas. Essas leis enfatizam a minimização de dados, ou seja, os sistemas devem coletar apenas os dados necessários para seus propósitos. Elas também destacam a importância de obter o consentimento do usuário antes de coletar e processar informações pessoais.
Encontrar um equilíbrio entre privacidade e utilidade é uma tarefa desafiadora. Se for imposto muita privacidade, isso pode limitar insights úteis obtidos a partir dos dados. Por outro lado, privacidade insuficiente pode levar ao uso indevido das informações pessoais.
Entendendo o Modelo SITA
Para lidar com as questões de privacidade, o modelo SITA foi desenvolvido. Ele permite que os usuários controlem sua privacidade gerenciando quanto de informação eles compartilham. O modelo divide a privacidade em quatro dimensões:
- Espacial: Refere-se a dados de localização, como coordenadas GPS ou o quarto específico que está sendo ocupado.
- Identidade: Envolve informações de identificação pessoal, como nome ou gênero.
- Temporal: Relaciona-se ao tempo, como quando alguém está presente no prédio.
- Atividade: Abrange dados sobre ações ou preferências no edifício, incluindo níveis de CO2 e temperatura.
Cada uma dessas dimensões pode ser ajustada em uma escala de zero a quatro. Um nível de zero significa total privacidade, enquanto um quatro significa que nenhuma proteção à privacidade é aplicada. Os usuários podem escolher níveis para cada categoria, dando a eles controle sobre quais dados estão confortáveis em compartilhar.
Visão Geral do Experimento
Em nossa pesquisa, usamos dados de um edifício inteligente na Inglaterra. Aplicamos várias configurações do modelo SITA a esses dados e depois utilizamos algoritmos de Aprendizado de Máquina para ver quão eficazmente poderíamos prever os níveis de CO2. Diferentes níveis de privacidade foram definidos para avaliar seu impacto na precisão dos dados.
O experimento envolveu várias etapas:
- Coleta de Dados: Coletamos dados de sensores no prédio, focando em fatores como níveis de CO2, temperatura e umidade.
- Transformação dos Dados: Modificamos o conjunto de dados original para prepará-lo para ajustes de privacidade.
- Transformação SITA: Criamos vários conjuntos de dados com base em diferentes configurações SITA, ajustando os níveis de privacidade para cada dimensão.
- Treinamento de Aprendizado de Máquina: Treinamos vários modelos de aprendizado de máquina nos diferentes conjuntos de dados para avaliar como cada configuração impactou a precisão das previsões.
- Análise: Medimos os resultados usando métricas comuns, incluindo o quão bem o modelo se desempenhou (usando uma pontuação conhecida como R²), e duas medições de erro: Erro Absoluto Médio (MAE) e Erro Quadrático Médio (RMSE).
Coleta e Limpeza de Dados
Nosso conjunto de dados veio do Urban Sciences Building em Newcastle. Esse prédio tem vários sensores que rastreiam diversos fatores ambientais. Acessamos dados históricos registrados de outubro de 2018 a março de 2020 através de uma API pública.
Para preparar os dados, consolidamos os registros, garantindo que todas as entradas com dados ausentes fossem removidas. Definimos faixas aceitáveis para fatores como níveis de CO2 (0 a 1000 ppm), temperatura (0°C a 50°C), umidade (0% a 100%) e brilho (0 a 2000 lúmens). Depois da limpeza, tivemos cerca de 200.000 registros válidos prontos para análise.
Aplicando o Modelo SITA
Cada dimensão do modelo SITA nos permitiu modificar o conjunto de dados de maneiras específicas. Aqui está como as transformações funcionaram:
- Espacial: Dependendo do nível definido, podíamos excluir todos os dados de localização, mostrar apenas a localização geral ou fornecer informações detalhadas sobre o quarto.
- Temporal: Podíamos remover todos os dados de tempo ou apenas mostrar certos aspectos como ano ou data.
- Atividade: Essa dimensão nos permitiu controlar quão detalhados seriam os dados sobre CO2, temperatura e umidade. Podíamos arredondar valores ou fornecer cifras exatas, dependendo do nível escolhido.
Ao aplicar diferentes níveis de privacidade ao nosso conjunto de dados, geramos múltiplos conjuntos de dados privados usando configurações SITA específicas. Por exemplo, poderíamos definir a dimensão Espacial no nível dois, a dimensão Temporal no nível zero e a dimensão Atividade no nível quatro.
Aprendizado de Máquina e Treinamento
Para a análise, utilizamos cinco algorítmos de aprendizado de máquina diferentes:
- Regressão Linear (LR)
- Regressão Ridge (RR)
- Random Forest (RF)
- Regressão de Aumento Gradual (GBR)
- Regressor de Árvore de Decisão (DTR)
Utilizamos uma plataforma para treinar os modelos usando uma mistura de dados numéricos transformados de nossos conjuntos de dados. Os dados foram divididos em conjuntos de treinamento e teste, permitindo uma avaliação apropriada.
Em seguida, medimos o desempenho desses modelos usando as três métricas mencionadas anteriormente: pontuação R², MAE e RMSE.
Resultados e Discussão
Nossos achados mostraram que diferentes configurações de privacidade impactaram o desempenho dos modelos de aprendizado de máquina.
Métricas de Desempenho
- Pontuação R²: O modelo Random Forest consistentemente alcançou a maior pontuação R² em comparação com outros algoritmos, embora seu desempenho caísse quando configurações de privacidade mais altas eram aplicadas às dimensões Atividade e Temporal.
- Erro Absoluto Médio (MAE): O Random Forest também teve o menor MAE, indicando que fez previsões mais precisas no geral. No entanto, à medida que a privacidade se tornava mais rigorosa, o MAE aumentava, refletindo uma queda na precisão do modelo.
- Erro Quadrático Médio (RMSE): Embora o RMSE fosse similar ao MAE, ele mostrou diferenças maiores, particularmente entre os modelos Random Forest e Árvore de Decisão sob diferentes configurações de privacidade.
Troca de Privacidade e Utilidade
O estudo destaca o desafio de equilibrar privacidade e utilidade. À medida que aumentamos as configurações de privacidade, particularmente na dimensão Temporal, o desempenho da previsão caiu significativamente. Isso demonstrou que certos tipos de dados são mais sensíveis a mudanças de privacidade. Por exemplo, remover dados de tempo dificultou muito a previsão precisa dos níveis de CO2.
A dimensão Espacial teve o menor impacto no desempenho, sugerindo que os dados de localização podem ser menos sensíveis do que outros tipos de informações.
Conclusão
Em conclusão, nossa pesquisa ilustra como aplicar modelos de privacidade em edifícios inteligentes pode impactar previsões sobre a qualidade do ar interno, especificamente os níveis de CO2. O modelo SITA permite que os usuários gerenciem a privacidade, mas aumentar a privacidade pode custar a precisão dos dados.
Nossos achados sugerem que é possível alcançar configurações de privacidade mais altas enquanto ainda retém algum nível de utilidade dos dados, particularmente sendo estratégicos sobre quais dimensões ajustar. Pesquisas futuras podem procurar combinar o modelo SITA com outras técnicas de privacidade para melhorar ainda mais a segurança dos dados sem sacrificar significativamente o poder preditivo.
Ao continuar a refinar esses modelos e métodos, podemos criar ambientes mais inteligentes e seguros, respeitando as preocupações com a privacidade.
Título: Impact of using a privacy model on smart buildings data for CO2 prediction
Resumo: There is a constant trade-off between the utility of the data collected and processed by the many systems forming the Internet of Things (IoT) revolution and the privacy concerns of the users living in the spaces hosting these sensors. Privacy models, such as the SITA (Spatial, Identity, Temporal, and Activity) model, can help address this trade-off. In this paper, we focus on the problem of $CO_2$ prediction, which is crucial for health monitoring but can be used to monitor occupancy, which might reveal some private information. We apply a number of transformations on a real dataset from a Smart Building to simulate different SITA configurations on the collected data. We use the transformed data with multiple Machine Learning (ML) techniques to analyse the performance of the models to predict $CO_{2}$ levels. Our results show that, for different algorithms, different SITA configurations do not make one algorithm perform better or worse than others, compared to the baseline data; also, in our experiments, the temporal dimension was particularly sensitive, with scores decreasing up to $18.9\%$ between the original and the transformed data. The results can be useful to show the effect of different levels of data privacy on the data utility of IoT applications, and can also help to identify which parameters are more relevant for those systems so that higher privacy settings can be adopted while data utility is still preserved.
Autores: Marlon P. da Silva, Henry C. Nunes, Charles V. Neu, Luana T. Thomas, Avelino F. Zorzo, Charles Morisset
Última atualização: 2023-06-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.00766
Fonte PDF: https://arxiv.org/pdf/2306.00766
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.springer.com/gp/computer-science/lncs
- https://gdpr.eu/
- https://www.serpro.gov.br/lgpd/menu/a-lgpd/o-que-muda-com-a-lgpd
- https://prsindia.org/billtrack/the-personal-data-protection-bill-2019
- https://api.usb.urbanobservatory.ac.uk
- https://www.sciencedirect.com/science/article/pii/S2352340920308180
- https://www.ashrae.org/about/position-documents
- https://www.kaggle.com
- https://scikit-learn.org