Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Melhorando Previsões no Planejamento de Transporte com ENSY

Apresentando o ENSY pra melhorar as previsões de modos de viagem de minorias.

― 7 min ler


ENSY: Uma Nova Maneira deENSY: Uma Nova Maneira dePrever Viagenseficaz.de transporte de minorias de formaA ENSY melhora as previsões para modos
Índice

O planejamento de transporte depende muito de entender como as pessoas escolhem seus modos de viagem. Prever essas escolhas com precisão ajuda a melhorar os sistemas de transporte público e a gerenciar o tráfego de forma eficaz. No entanto, os métodos tradicionais de previsão dessas escolhas costumam deixar de lado opções de viagem menos comuns, levando a resultados imprecisos. Este artigo apresenta um novo método chamado Ensemble Synthesizer (ENSY) que visa melhorar as previsões para modos de viagem minoritários e aprimorar a precisão geral nos modelos de transporte.

O Desafio da Previsão de Escolha de Modo

A previsão de escolha de modo analisa por que os viajantes selecionam uma opção de transporte em vez de outra. Os fatores que influenciam essas escolhas podem ser simples, como distância e tempo de viagem, ou mais abstratos, como segurança e conforto. Com novas opções de transporte surgindo, como caronas e patinetes elétricos, entender essas escolhas se tornou ainda mais complexo.

Historicamente, economistas e especialistas em transporte têm usado modelos de escolha discreta (DCMs) para prever as escolhas de modo. Esses modelos têm suas vantagens, incluindo explicações claras sobre seu funcionamento. No entanto, eles também exigem muitas suposições e processamento de dados extenso, o que pode complicar seu uso.

Avanços recentes em aprendizado de máquina (ML) oferecem uma nova perspectiva. Diferente dos métodos tradicionais, o ML não precisa de estruturas de dados rígidas, permitindo uma adaptação mais eficaz ao comportamento diverso observado nas escolhas de viagem.

Conjuntos de Dados Desbalanceados

Um grande obstáculo na previsão de escolha de modo são os conjuntos de dados desbalanceados. Em estudos de transporte, certos modos de viagem, como andar ou andar de bicicleta, podem ser muito menos comuns do que outros, como dirigir. Modelos tradicionais podem se sair bem com modos comuns, mas têm dificuldades com opções mais raras, resultando em resultados distorcidos.

Para melhorar as previsões para modos menos comuns, pesquisadores exploraram vários métodos. Alguns incluem diferentes técnicas de aumento de dados, que é a prática de criar dados sintéticos para equilibrar os tamanhos das classes. No entanto, muitos métodos existentes têm limitações, resultando em desafios contínuos para previsões precisas.

Apresentando o Ensemble Synthesizer (ENSY)

Este artigo apresenta o ENSY como uma solução para os problemas impostos por conjuntos de dados desbalanceados na previsão de escolha de modo. O ENSY usa distribuições de probabilidade de dados existentes para criar novos pontos de dados sintéticos, projetados especificamente para melhorar a previsão de classes minoritárias.

O método ENSY tem dois componentes principais: um gerador e um validador. O gerador cria novos pontos de dados para classes sub-representadas com base em padrões de dados existentes. O validador verifica se esses pontos gerados se encaixam nas categorias definidas, garantindo dados sintéticos de alta qualidade antes de serem usados no treinamento de modelos de previsão.

Como o ENSY Funciona

Geração de Dados

No primeiro passo, o gerador do ENSY cria novas instâncias para cada modo de viagem. Ele começa com a distribuição geral dos dados existentes para formar novas amostras. O gerador opera em dados numéricos e categóricos separadamente.

Para recursos numéricos, um Modelo de Mistura Gaussiana identifica padrões nos dados, permitindo que o gerador crie novos valores que permaneçam dentro de limites realistas. Se os valores gerados excederem os limites mínimo ou máximo dos dados reais, eles podem ser ajustados para atender a esses limites.

Para recursos categóricos, o ENSY usa frequências observadas de diferentes categorias para gerar novas instâncias. Empregando uma técnica de mapeamento simples, o ENSY garante que os valores categóricos criados reflitam a distribuição dos dados originais.

Processo de Validação

Uma vez que as instâncias sintéticas são geradas, elas passam pelo validador. Um classificador treinado avalia os novos pontos de dados para determinar se eles representam com precisão as classes minoritárias. Se o classificador identificar uma instância como incorreta, ela é descartada; caso contrário, é incluída no conjunto de treinamento. Essa etapa de validação é crucial porque garante que apenas dados de alta qualidade sejam adicionados, levando a um melhor desempenho do modelo.

Avaliando o Desempenho

Para medir como o ENSY se sai, várias métricas padrão são usadas, como precisão geral, precisão, recall e F1-score. A precisão geral reflete quantos casos foram previstos corretamente, enquanto a precisão indica quão precisas foram as previsões para a classe minoritária. Recall mede a capacidade do modelo de identificar todos os casos dentro da classe minoritária, e o F1-score combina precisão e recall em uma única métrica.

Ao comparar o ENSY com métodos existentes, como Random Oversampling, SMOTE e Redes Adversariais Generativas, o ENSY consistently mostrou melhor desempenho em termos de melhorar o F1-score para modos de viagem menos comuns.

Resultados

Os resultados do uso do ENSY em conjuntos de dados como o conjunto de dados de escolha de modo de passageiros de Londres e o Banco de Dados de Transporte da Coreia mostraram melhorias promissoras. Por exemplo, o ENSY quase quadruplicou o F1 score para a classe minoritária de ciclismo e aumentou a precisão geral em cerca de 3% no conjunto de dados de Londres, enquanto também demonstrava eficácia no conjunto de dados coreano.

Além disso, ao aplicar algoritmos de aprendizado de máquina, como Extreme Gradient Boosting e Random Forest, o ENSY mostrou um potencial significativo. Em muitos casos, a taxa de sucesso da classificação melhorou, especialmente ao utilizar o modelo XGB, que consistentemente superou outros em resultados.

Comparação com Outros Métodos

Random Oversampling

O Random Oversampling envolve simplesmente duplicar instâncias da classe minoritária. Embora esse seja um método simples, tem algumas desvantagens. Principalmente, não adiciona novas informações, o que pode impedir que o modelo aprenda distinções mais sutis dentro dos dados. Em contraste, o ENSY gera instâncias sintéticas variadas, ajudando o classificador a capturar mais detalhes.

SMOTE

A Técnica de Sobreamostragem de Minorias Sintéticas (SMOTE) cria novas instâncias interpolando entre as existentes. Embora seja eficaz, o SMOTE tem limitações porque depende da estrutura dos dados existentes. O ENSY, por sua vez, explora padrões mais amplos nos dados, permitindo criar instâncias sintéticas que oferecem mais insights sobre as classes minoritárias.

GANs

Redes Adversariais Generativas (GANs) envolvem dois modelos competindo entre si, com um gerando dados e o outro distinguindo o real do falso. Embora as GANs sejam poderosas, podem se ajustar excessivamente a classes majoritárias ou gerar ruído para classes minoritárias. O ENSY aborda essas questões gerando dados sintéticos com base na distribuição existente de todas as classes e priorizando a qualidade por meio de sua etapa de validação.

Conclusão

Em resumo, o ENSY oferece uma abordagem inovadora para lidar com o desbalanceamento de classes na previsão de escolha de modo. Gerando dados sintéticos de alta qualidade adaptados para classes minoritárias, ele melhora a precisão preditiva geral. Os resultados de ambos os conjuntos de dados de escolha de modo de passageiros de Londres e do Banco de Dados de Transporte da Coreia destacam a promessa do ENSY como uma ferramenta confiável para melhorar previsões no planejamento de transporte.

Enquanto os avanços mostrados pelo ENSY são encorajadores, pesquisas contínuas são necessárias para refinar ainda mais o método e explorar aplicações adicionais. Trabalhos futuros poderiam envolver o ajuste de parâmetros, exploração de técnicas de aprendizado em conjunto e integração de engenharia de recursos mais detalhada para otimizar sua eficácia.

Para concluir, à medida que os sistemas de transporte continuam a evoluir, garantir previsões precisas das escolhas de modo continuará sendo fundamental. O ENSY oferece uma avenida valiosa para melhorar essas previsões, ajudando, em última análise, no melhor planejamento e gerenciamento do transporte.

Fonte original

Título: Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)

Resumo: Accurate classification of mode choice datasets is crucial for transportation planning and decision-making processes. However, conventional classification models often struggle to adequately capture the nuanced patterns of minority classes within these datasets, leading to sub-optimal accuracy. In response to this challenge, we present Ensemble Synthesizer (ENSY) which leverages probability distribution for data augmentation, a novel data model tailored specifically for enhancing classification accuracy in mode choice datasets. In our study, ENSY demonstrates remarkable efficacy by nearly quadrupling the F1 score of minority classes and improving overall classification accuracy by nearly 3%. To assess its performance comprehensively, we compare ENSY against various augmentation techniques including Random Oversampling, SMOTE-NC, and CTGAN. Through experimentation, ENSY consistently outperforms these methods across various scenarios, underscoring its robustness and effectiveness

Autores: Amirhossein Parsi, Melina Jafari, Sina Sabzekar, Zahra Amini

Última atualização: 2024-07-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.01769

Fonte PDF: https://arxiv.org/pdf/2407.01769

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes