Abordagens Inovadoras para Prever a Produção de Culturas
Novos métodos usam aprendizado de máquina pra otimizar a produção de soja em meio aos desafios climáticos.
― 8 min ler
Índice
O mundo tá mudando rápido e, até 2050, vão ter quase 10 bilhões de pessoas nesse planeta. Pra alimentar todo mundo, a gente precisa produzir mais comida. Infelizmente, as mudanças climáticas tão dificultando o cultivo. Os fazendeiros enfrentam desafios como secas, inundações e pragas, que diminuem a produtividade das colheitas. A gente precisa encontrar novas maneiras de cultivar alimentos que consigam aguentar essas mudanças.
Uma abordagem promissora é desenvolver culturas que consigam lidar com esses desafios climáticos. Isso é feito através de programas de criação que selecionam plantas resistentes à seca ou ao calor. Mas, criar plantas que prosperem em condições mutáveis não é fácil. Ainda tem muita coisa que a gente não sabe sobre como diferentes tipos de plantas reagem a vários Ambientes. Outra forma de enfrentar esse problema é através de modelos de simulação de culturas. Esses modelos ajudam a prever como as colheitas podem crescer em diferentes condições climáticas. No entanto, os modelos tradicionais podem ser complexos e nem sempre dão resultados precisos.
Recentemente, teve um interesse crescente em usar aprendizado de máquina na agricultura. O aprendizado de máquina pode ajudar os fazendeiros prevendo a produtividade das colheitas, gerenciando água, prevendo pragas e muito mais. Porém, treinar esses modelos pode ser complicado por causa de dados inconsistentes sobre diversos insumos agrícolas.
Genótipo e Ambiente
Interação entreEscolher a variedade de planta certa, ou genótipo, pra diferentes ambientes pode ser desafiador. Os criadores geralmente escolhem variedades de plantas com base em características como produtividade e resistência a doenças. Eles cruzam plantas com características desejáveis e testam os híbridos em várias condições. Isso pode demorar muito porque tem uma porção de combinações pra experimentar.
Uma abordagem baseada em dados pode acelerar esse processo. Usando dados disponíveis, a gente consegue identificar quais variedades de planta se saem melhor em condições específicas com menos testes necessários. Isso pode ser especialmente útil quando os dados de vários anos de cultivo são limitados. Uma ideia recente é usar métodos que preencham lacunas onde os dados estão faltando, permitindo que a gente aprenda a partir de menos registros.
A Estrutura
Neste estudo, apresentamos uma nova maneira de prever a produtividade das colheitas usando técnicas de aprendizado profundo. Esse novo método combina dados ambientais com informações de genótipo. O objetivo é encontrar a melhor variedade de planta para diferentes locais, prevendo primeiro a produtividade das colheitas com base nas condições climáticas e depois escolhendo a variedade que rende mais.
Muitos métodos de aprendizado de máquina foram usados pra prever a performance das colheitas, incluindo diferentes tipos de redes neurais. Nosso modelo híbrido combina redes neurais convolucionais (CNN) e redes de memória de longo prazo (LSTM). As CNNs funcionam bem com vários formatos de dados, enquanto as LSTMs são ótimas pra dados sequenciais.
Análise de Dados
Os dados usados neste estudo vêm de uma competição focada em prever a produtividade da soja usando máquinas. Eles incluem mais de 93.000 registros sobre como diferentes variedades de soja se saem em várias condições nos EUA e no Canadá ao longo de 13 anos. Esse conjunto de dados detalhado inclui informações diárias sobre o clima e dados sobre 5838 variedades únicas de soja.
Os dados climáticos contêm vários fatores como temperatura, umidade e luz solar, que são cruciais pro crescimento das plantas. Esse conjunto de dados permite que a gente analise como o clima impacta a produtividade da soja e ajuda a encontrar as melhores variedades pra diferentes regiões e anos.
Preparação dos Dados
Pra deixar os dados utilizáveis pro aprendizado de máquina, fizemos várias etapas. Primeiro, a gente converteu dados categóricos em um formato adequado pra modelagem. Isso envolveu criar variáveis binárias pra diferentes categorias como grupos de maturidade, anos e locais.
Depois, simplificamos os dados climáticos diários fazendo médias ao longo do tempo. Em vez de olhar os valores diários, que podem ser muito, a gente resumiu os dados em médias de quatro dias. Isso também reduziu a complexidade do modelo, tornando mais fácil trabalhar com ele.
Finalmente, padronizamos as variáveis climáticas pra garantir que nenhum fator único influenciasse demais as previsões do modelo. Isso ajudou a melhorar a precisão das nossas previsões.
Desenvolvimento do Modelo
A gente propôs dois modelos: o CNN-DNN e o CNN-LSTM-DNN. O primeiro modelo combina CNNs com redes totalmente conectadas. A parte da CNN analisa os dados climáticos, enquanto a rede totalmente conectada processa outros dados como informações de genótipo e grupo de maturidade.
O segundo modelo se baseia no primeiro adicionando uma camada LSTM. A parte LSTM melhora a capacidade do modelo de entender como as variáveis climáticas mudam ao longo do tempo, o que é crucial pra prever a produtividade das colheitas.
Ambos os modelos foram treinados no mesmo conjunto de dados, e nossa meta era melhorar a precisão deles usando um método de conjunto chamado Método de Conjunto Generalizado (GEM). Esse método combina as previsões dos dois modelos pra criar um resultado mais confiável.
Avaliação do Modelo
Pra avaliar os modelos, usamos várias métricas como erro absoluto médio e erro quadrático médio. Essas métricas ajudam a medir o quão próximas nossas previsões estão dos rendimentos reais. Comparamos nossos modelos híbridos com modelos padrão de aprendizado de máquina como florestas aleatórias e reforço de gradiente extremo.
Os resultados mostraram que nosso modelo GEM superou significativamente os outros modelos. A força do modelo GEM tá na sua capacidade de captar as relações complexas entre os dados climáticos e a produtividade das colheitas, levando a previsões mais precisas.
Seleção do Genótipo Ótimo
Depois de treinar nossos modelos, focamos em identificar as 10 melhores variedades de soja pra cada local e cenário ambiental. Usamos todo o conjunto de dados pra prever os rendimentos de todas as variedades de soja, excluindo o grupo de maturidade pra simplificar o processo.
Analisando as previsões, conseguimos identificar quais variedades provavelmente teriam os maiores rendimentos em diferentes condições. Essa informação é crucial pra fazendeiros que querem otimizar a produção das suas colheitas e se adaptar às mudanças climáticas.
Análise de Importância das Variáveis
Fizemos uma análise pra identificar quais fatores impactaram mais as previsões do nosso modelo. Medindo o quanto a precisão das nossas previsões mudava quando embaralhávamos diferentes variáveis, descobrimos que a localização foi o fator mais influente, seguido de perto pelo grupo de maturidade, ano e genótipo. Entre as variáveis climáticas, a irradiância normal direta máxima (MDNI) teve o maior impacto.
Essa análise de importância das variáveis ajuda a entender quais fatores devem ser priorizados na hora de escolher a variedade ótima de soja pra diferentes condições de cultivo. Também ressalta a importância da localização na previsão dos rendimentos das colheitas, que podem variar muito entre diferentes regiões.
Análise Temporal das Variáveis Climáticas
Além disso, examinamos o tempo dos impactos climáticos durante a temporada de crescimento. Olhando pra períodos específicos em que as variáveis climáticas mostraram mais influência nas previsões de rendimento, identificamos semanas críticas que correspondem a estágios-chave do crescimento da soja.
Por exemplo, semanas em que a radiação solar e a precipitação foram particularmente importantes corresponderam a estágios de floração e desenvolvimento das vagens no crescimento da soja. Entender essas relações pode ajudar no melhor planejamento do plantio e manejo das colheitas.
Conclusão
Resumindo, esse estudo apresenta uma abordagem nova pra prever a produtividade das colheitas de soja e selecionar variedades ótimas através de técnicas de aprendizado profundo. Aproveitando um conjunto de dados substancial que inclui registros detalhados climáticos e de performance das colheitas, desenvolvemos modelos que podem fornecer previsões precisas.
Nossas descobertas destacam a importância da localização e dos fatores ambientais específicos na determinação das melhores variedades de soja pra diferentes condições. Essa pesquisa tem implicações fortes pra melhorar a segurança alimentar e as práticas agrícolas em um clima em mudança.
Pesquisas futuras poderiam expandir esse estudo incorporando dados adicionais, como qualidade do solo, pra refinar ainda mais os modelos e aumentar a precisão na previsão dos resultados das colheitas. Assim, a gente pode continuar desenvolvendo estratégias agrícolas mais resilientes pra apoiar uma população global crescente em meio a desafios climáticos contínuos.
Título: A Hybrid Deep Learning-based Approach for Optimal Genotype by Environment Selection
Resumo: Precise crop yield prediction is essential for improving agricultural practices and ensuring crop resilience in varying climates. Integrating weather data across the growing season, especially for different crop varieties, is crucial for understanding their adaptability in the face of climate change. In the MLCAS2021 Crop Yield Prediction Challenge, we utilized a dataset comprising 93,028 training records to forecast yields for 10,337 test records, covering 159 locations across 28 U.S. states and Canadian provinces over 13 years (2003-2015). This dataset included details on 5,838 distinct genotypes and daily weather data for a 214-day growing season, enabling comprehensive analysis. As one of the winning teams, we developed two novel convolutional neural network (CNN) architectures: the CNN-DNN model, combining CNN and fully-connected networks, and the CNN-LSTM-DNN model, with an added LSTM layer for weather variables. Leveraging the Generalized Ensemble Method (GEM), we determined optimal model weights, resulting in superior performance compared to baseline models. The GEM model achieved lower RMSE (5.55% to 39.88%), reduced MAE (5.34% to 43.76%), and higher correlation coefficients (1.1% to 10.79%) when evaluated on test data. We applied the CNN-DNN model to identify top-performing genotypes for various locations and weather conditions, aiding genotype selection based on weather variables. Our data-driven approach is valuable for scenarios with limited testing years. Additionally, a feature importance analysis using RMSE change highlighted the significance of location, MG, year, and genotype, along with the importance of weather variables MDNI and AP.
Autores: Zahra Khalilzadeh, Motahareh Kashanian, Saeed Khaki, Lizhi Wang
Última atualização: 2023-09-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.13021
Fonte PDF: https://arxiv.org/pdf/2309.13021
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.