Prevedere il comportamento degli utenti della strada per viaggi più sicuri
Un nuovo sistema prevede le azioni dei pedoni e dei conducenti, migliorando la sicurezza stradale.
― 6 leggere min
Indice
- L'importanza di prevedere i comportamenti degli utenti della strada
- Sfide attuali nella previsione
- Un nuovo approccio: combinare grafi della conoscenza e modelli linguistici
- Come funziona il sistema
- Casi d'uso: Previsioni per pedoni e conducenti
- Confronto delle performance con altri modelli
- Spiegabilità: Rendere le previsioni comprensibili
- Conclusione e direzioni future
- Fonte originale
- Link di riferimento
L'argomento di come prevedere il comportamento di persone e veicoli sulla strada sta ricevendo sempre più attenzione, soprattutto con l'aumento dei veicoli autonomi. Capire come pedoni e conducenti prendono decisioni può aiutare a migliorare la sicurezza stradale. Questo articolo parla di un nuovo sistema progettato per prevedere le azioni degli utenti della strada come pedoni e veicoli utilizzando tecnologie avanzate.
L'importanza di prevedere i comportamenti degli utenti della strada
La sicurezza stradale è migliorata nel corso degli anni, ma ci sono ancora tanti incidenti. Per esempio, gli utenti vulnerabili della strada come i pedoni sono spesso a rischio. Le ricerche mostrano che molti incidenti coinvolgono pedoni, sottolineando la necessità di sistemi di previsione migliori. Questi sistemi dovrebbero aiutare i veicoli automatizzati a capire e anticipare le azioni sia dei pedoni che dei conducenti.
Sfide attuali nella previsione
La maggior parte dei sistemi di previsione esistenti si basa principalmente su dati di movimento di base degli utenti della strada. Questo approccio semplifica una realtà complessa. Gli esseri umani sono influenzati da molti fattori, tra cui l'ambiente, le emozioni e i segnali sociali. I metodi attuali spesso utilizzano modelli di deep learning complessi che eccellono nelle prestazioni, ma potrebbero non catturare appieno il contesto o il significato delle azioni. Questo può portare a risultati che non sono facili da spiegare.
Un sistema di previsione migliore dovrebbe incorporare non solo dati di movimento, ma anche il contesto in cui avvengono le azioni. Dovrebbe fornire motivi chiari per le previsioni, in modo che gli esseri umani possano capirle.
Un nuovo approccio: combinare grafi della conoscenza e modelli linguistici
Questo articolo presenta un nuovo sistema di previsione che combina Grafi della Conoscenza (KG) e Modelli Linguistici di Grandi Dimensioni (LLM). Questo sistema mira a fornire previsioni chiare e comprensibili sui comportamenti degli utenti della strada.
Cos'è un Grafo della Conoscenza?
Un Grafo della Conoscenza è un modo per organizzare informazioni in una forma strutturata. Rappresenta fatti del mondo reale in una rete di entità collegate (come pedoni e veicoli) e le relazioni tra di esse. Questo consente un ragionamento complesso su come diversi fattori siano collegati tra loro.
Utilizzare i Modelli Linguistici
I Modelli Linguistici di Grandi Dimensioni aiutano a generare testi simili a quelli umani e possono assistere nella spiegazione delle previsioni fatte dai KG. Combinando queste due tecnologie, il nuovo sistema può sfruttare sia informazioni strutturate che linguaggio per fornire una migliore comprensione dei comportamenti degli utenti della strada.
Come funziona il sistema
Il sistema proposto segue un processo chiaro. Comporta la creazione di un Grafo della Conoscenza che codifica diversi comportamenti, l'estrazione di caratteristiche da dati reali e l'uso del Ragionamento Bayesiano per fare previsioni.
Fase 1: Costruire un Grafo della Conoscenza
Il primo passo è costruire un KG che cattura i diversi comportamenti degli utenti della strada. Questo include fattori come la posizione del corpo di un pedone, la velocità dei veicoli e le condizioni stradali. Codificando queste informazioni in un KG, il sistema può analizzare le relazioni e offrire spunti.
Fase 2: Estrarre Caratteristiche
Il passo successivo coinvolge l'estrazione di caratteristiche rilevanti. Ad esempio, può guardare alla velocità di un pedone, alla direzione dello sguardo e alla distanza dalla strada. Queste caratteristiche vengono trasformate in categorie comprensibili, rendendo più facile per il modello fare previsioni basate su di esse.
Fase 3: Integrare le Informazioni
Il sistema combina informazioni provenienti da varie fonti, come esperienze passate e dati in tempo reale raccolti dai sensori del veicolo. Questo approccio completo consente una comprensione più approfondita della situazione sulla strada.
Fase 4: Fare Previsioni
Con il KG e le caratteristiche estratte, il sistema utilizza l'inferenza bayesiana per calcolare le probabilità di diverse azioni. Ad esempio, può valutare la probabilità che un pedone attraversi la strada in base al comportamento osservato e ad altri fattori contestuali.
Casi d'uso: Previsioni per pedoni e conducenti
Il sistema può essere applicato a diversi scenari. Qui discutiamo due casi d'uso: prevedere quando un pedone attraverserà la strada e prevedere i cambi di corsia da parte dei veicoli.
Caso d'uso 1: Azioni di attraversamento dei pedoni
In questo scenario, il sistema prevede se un pedone deciderà di attraversare la strada nel prossimo futuro. Analizza i dati video dei pedoni, osservando i loro comportamenti come movimento, distanza dal marciapiede e direzione dello sguardo.
Elaborando questi fattori tramite il KG, il sistema può offrire previsioni e spiegazioni per ogni caso. Se un pedone è vicino alla strada e guarda nella direzione del traffico, il sistema potrebbe prevedere che attraverserà.
Caso d'uso 2: Previsioni di cambio di corsia dei veicoli
In questo caso, il sistema si concentra sulla previsione dei cambi di corsia da parte dei veicoli. Analizza i dati su velocità dei veicoli, posizioni e distanze dai veicoli vicini. Utilizzando lo stesso approccio del KG, valuta la probabilità che un veicolo cambi corsia in base alla sua situazione attuale.
Se un veicolo bersaglio si avvicina a un altro veicolo in una corsia, il sistema può valutare il rischio di una possibile collisione e consigliare al veicolo bersaglio di rallentare o cambiare corsia.
Confronto delle performance con altri modelli
Per valutare l'efficacia del nuovo sistema, sono stati condotti esperimenti confrontando le sue performance con modelli esistenti. I risultati hanno mostrato che il nuovo metodo ha superato le tecniche di machine learning tradizionali.
Nel caso d'uso pedonale, il nuovo sistema ha fornito un miglioramento significativo nella previsione delle azioni di attraversamento, con un punteggio F1 migliore-una misura importante delle performance del modello. Lo stesso trend è stato osservato nello scenario di previsione del cambio di corsia dei veicoli, dove il nuovo sistema ha offerto risultati più accurati rispetto ad altri modelli.
Spiegabilità: Rendere le previsioni comprensibili
Un aspetto unico del nuovo sistema è l'accento sulla spiegabilità. Non solo prevede comportamenti, ma descrive anche il ragionamento dietro quelle previsioni.
Logica Fuzzy per le spiegazioni
Utilizzare laLe tecniche di logica fuzzy vengono utilizzate per creare regole che aiutano a spiegare le decisioni. Utilizzando regole fuzzy, il sistema può presentare intuizioni chiare su perché un pedone potrebbe attraversare la strada o perché un veicolo è probabile che cambi corsia.
Integrazione della generazione aumentata da recupero
Inoltre, il sistema utilizza tecniche di Generazione Aumentata da Recupero (RAG). Questo processo migliora l'esposizione recuperando informazioni rilevanti e generando risposte ricche di contesto che chiariscono le previsioni fatte.
Conclusione e direzioni future
Il sistema di previsione proposto rappresenta un passo avanti significativo nella comprensione dei comportamenti degli utenti della strada. Combinando efficacemente Grafi della Conoscenza e modelli linguistici, può fornire previsioni chiare e spiegabili che migliorano la sicurezza e l'efficienza dei veicoli autonomi.
Nonostante i risultati ottenuti, c'è ancora margine di miglioramento. I lavori futuri potrebbero concentrarsi sull'espansione delle capacità del sistema, come la valutazione di situazioni di quasi-incidente o la comprensione dei comportamenti in diversi contesti culturali. Inoltre, integrare il sistema con la pianificazione comportamentale dei veicoli autonomi potrebbe consentire loro di imitare decisioni simili a quelle umane, migliorando le loro interazioni con tutti gli utenti della strada.
La ricerca e lo sviluppo in quest'area mostrano grandi promesse per affrontare le sfide della sicurezza stradale e rendere i trasporti più sicuri per tutti.
Titolo: RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models
Estratto: Prediction of road users' behaviors in the context of autonomous driving has gained considerable attention by the scientific community in the last years. Most works focus on predicting behaviors based on kinematic information alone, a simplification of the reality since road users are humans, and as such they are highly influenced by their surrounding context. In addition, a large plethora of research works rely on powerful Deep Learning techniques, which exhibit high performance metrics in prediction tasks but may lack the ability to fully understand and exploit the contextual semantic information contained in the road scene, not to mention their inability to provide explainable predictions that can be understood by humans. In this work, we propose an explainable road users' behavior prediction system that integrates the reasoning abilities of Knowledge Graphs (KG) and the expressiveness capabilities of Large Language Models (LLM) by using Retrieval Augmented Generation (RAG) techniques. For that purpose, Knowledge Graph Embeddings (KGE) and Bayesian inference are combined to allow the deployment of a fully inductive reasoning system that enables the issuing of predictions that rely on legacy information contained in the graph as well as on current evidence gathered in real time by onboard sensors. Two use cases have been implemented following the proposed approach: 1) Prediction of pedestrians' crossing actions; 2) Prediction of lane change maneuvers. In both cases, the performance attained surpasses the current state of the art in terms of anticipation and F1-score, showing a promising avenue for future research in this field.
Autori: Mohamed Manzour Hussien, Angie Nataly Melo, Augusto Luis Ballardini, Carlota Salinas Maldonado, Rubén Izquierdo, Miguel Ángel Sotelo
Ultimo aggiornamento: 2024-05-01 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.00449
Fonte PDF: https://arxiv.org/pdf/2405.00449
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://data.nvision2.eecs.yorku.ca/JAAD_dataset/
- https://pedestriandataset.situated-intent.net/
- https://levelxdata.com/highd-dataset
- https://www.tablesgenerator.com/latex_tables
- https://www.youtube.com/playlist?list=PLAeK3AuwxenEqDvdJAk8X9Ysn5egmGvKO
- https://www.youtube.com/playlist?list=PLAeK3AuwxenFsZslUIYk1CitWKAeAddgt