Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Intelligenza artificiale# Calcolo e linguaggio

Migliorare il riconoscimento delle attività umane con modelli linguistici

Un nuovo approccio combina modelli linguistici con il riconoscimento delle attività umane consapevole del contesto.

― 8 leggere min


I modelli linguisticiI modelli linguisticipotenziano ilriconoscimento dellemeno sforzo.riconoscimento delle attività umane conNuovi metodi migliorano il
Indice

Riconoscimento dell'Attività Umana (HAR) è un campo di ricerca super importante nel mobile computing. Aiuta i dispositivi a capire cosa sta facendo la gente basandosi sui dati dei sensori in smartphone e dispositivi indossabili. Però, creare sistemi HAR affidabili è una sfida, soprattutto per la mancanza di dati etichettati necessari per addestrarli.

Una soluzione promettente è l'Intelligenza Artificiale Neuro-Simbolica (NeSy), che mescola metodi basati sui dati con approcci basati sulla conoscenza. Questa tecnica introduce conoscenze di buon senso sulle attività umane nei modelli HAR, rendendoli più efficaci, specialmente quando i dati scarseggiano. I metodi tradizionali spesso si basano su modelli logici complessi che richiedono un sacco di sforzi umani per essere costruiti e mantenuti.

HAR Consapevole del Contesto

Il HAR consapevole del contesto considera non solo i dati di movimento ma anche l'ambiente e le situazioni che circondano l'utente. Questo include informazioni come la posizione dell’utente, l’ora del giorno e le attività che si stanno svolgendo.

La maggior parte degli studi sul HAR si concentra solo sull'uso di dati grezzi dei sensori, ma aggiungere contesto aiuta a migliorare i tassi di riconoscimento. I sistemi consapevoli del contesto possono riconoscere un numero maggiore di attività, ma dipendono principalmente da metodi di deep learning che necessitano di tonnellate di dati etichettati.

Problemi di Scarsità dei Dati

Un grosso problema nello sviluppo dei sistemi HAR è la necessità di grandi quantità di dati etichettati, che è difficile da ottenere. Raccogliere etichette affidabili da molti utenti per numerose attività non è solo complicato; può essere anche costoso.

Per affrontare questo problema, diverse strategie sono state proposte nella comunità del machine learning. Alcune di queste guardano a caratteristiche come l'apprendimento per trasferimento, l'apprendimento auto-supervisionato e l'apprendimento semi-supervisionato. La speranza è che combinare questi metodi con NeSy possa ulteriormente ridurre la quantità di dati etichettati necessari per sistemi HAR efficaci.

Il Ruolo dell'Intelligenza Artificiale Neuro-Simbolica

I metodi Neuro-Simbolici mirano a mescolare l'apprendimento basato sui dati con sistemi basati sulla conoscenza. Incorporando fatti noti e relazioni nei modelli HAR, questi metodi possono ridurre la quantità di dati etichettati necessari. Ad esempio, se un modello sa che andare in bici non è un'attività probabile in un museo, non ha bisogno di impararlo dai dati.

I metodi esistenti spesso attingono conoscenze da modelli logici che richiedono un grande sforzo umano per essere creati e aggiornati. Costruire manualmente un modello di conoscenza completo che catturi ogni possibile attività e contesto è un compito complesso. I modelli logici tipicamente faticano a scalare man mano che nuove attività o contesti devono essere aggiunti.

Utilizzo dei Modelli Linguistici

Studi recenti suggeriscono che i Modelli Linguistici di Grande Dimensione (LLM) possono essere una fonte utile di conoscenza di buon senso sulle attività umane. Invece di affidarsi a modelli logici complessi, possiamo usare gli LLM per raccogliere conoscenze su come le diverse attività si relazionano ai loro contesti.

In questo nuovo approccio, proponiamo di usare un sistema che trasforma i contesti utente di alto livello in descrizioni in linguaggio naturale. Questo permette al sistema di chiedere all'LLM per attività coerenti con quei contesti. Il processo richiede meno sforzo umano rispetto ai modelli logici tradizionali.

Metodo Proposto

Il nostro sistema, che chiameremo ContextGPT, mira a usare la conoscenza degli LLM per migliorare le performance dei modelli NeSy nel HAR. Il primo passo è elaborare i dati dei sensori in finestre temporali, dove possiamo analizzare le attività in corso.

Una volta create queste finestre temporali, deriviamo contesti di alto livello dai dati grezzi dei sensori. Questo aiuta a catturare le informazioni rilevanti sull'utente e il suo ambiente.

Il passo successivo importante usa l'LLM per generare suggerimenti basati sul contesto di alto livello. Nel nostro sistema, questo include creare una descrizione in linguaggio naturale del contesto, che incorpori eventuali fattori rilevanti, come posizione o condizioni meteorologiche.

Ingegneria dei Suggerimenti

L'ingegneria dei suggerimenti è il processo di progettazione degli input che saranno inviati all'LLM. Questi suggerimenti guidano il modello nel fornire conoscenze utili sulle attività probabili in base al contesto dell'utente.

Il sistema è progettato per includere esempi su come rispondere al suggerimento. Questi esempi aiutano l'LLM a capire che tipo di output ci si aspetta. I suggerimenti consistono in un messaggio di sistema con istruzioni e forniscono il contesto in modo descrittivo.

L'idea è che l'LLM restituisca un elenco di attività compatibili con il contesto dato. Questo output può poi essere elaborato e usato per affinare il modello NeSy.

Estrazione della Conoscenza Contestuale

Una volta che abbiamo le informazioni di contesto in un formato di linguaggio naturale, chiediamo all'LLM di identificare quali attività si allineano con quel contesto. L'LLM genera un elenco di attività che corrispondono alla situazione attuale dell'utente.

Per garantire che l'output sia utile, rifiniamo gli elenchi delle attività generate e li associamo a un punteggio di coerenza. Questo punteggio indica quanto è probabile che un'attività si verifichi in base al contesto.

Impostazione Sperimentale

Nei nostri esperimenti, abbiamo valutato l'efficacia del nostro approccio ContextGPT utilizzando due dataset pubblici: DOMINO ed ExtraSensory. Questi dataset contengono dati reali raccolti da dispositivi indossabili, inclusi dati grezzi dei sensori inerziali e dati di contesto di alto livello.

Il dataset DOMINO include una varietà di attività come camminare, correre e andare in bicicletta, insieme a varie condizioni di contesto come il tempo e la posizione. Il dataset ExtraSensory è più impegnativo poiché contiene dati raccolti in situazioni di vita reale senza linee guida rigide.

Modello e Iper-parametri

Abbiamo utilizzato un'implementazione specifica di un modello NeSy per condurre i nostri esperimenti. Il modello elabora sia i dati grezzi dei sensori che i dati di contesto di alto livello contemporaneamente.

Vengono utilizzati vari strati convoluzionali per analizzare i dati dei sensori, mentre i dati di contesto di alto livello vengono elaborati tramite strati totalmente connessi. Entrambi i flussi di dati vengono combinati per formare un output coerente che tiene conto anche della conoscenza infusa dall'LLM.

Risultati e Valutazione

Abbiamo confrontato il nostro modello ContextGPT con due modelli di base: uno che non utilizza conoscenze aggiuntive e un altro che si basa su ontologie tradizionali per l'infusione della conoscenza.

I risultati hanno mostrato che il nostro modello ContextGPT ha superato significativamente il modello senza conoscenze, specialmente in scenari dove i dati etichettati erano limitati. Il modello ha raggiunto tassi di riconoscimento comparabili ai modelli basati su ontologie, richiedendo però molto meno sforzo umano.

Gli esperimenti hanno anche evidenziato che l'efficacia dell'infusione di conoscenza è particolarmente evidente per attività fortemente influenzate dal contesto. D'altra parte, per le attività meno dipendenti dal contesto, l'impatto dell'infusione di conoscenza è stato minimo.

Discussione

La flessibilità dell'uso degli LLM offre una soluzione moderna alle sfide affrontate dai modelli logici tradizionali. Invece di dover mantenere basi di conoscenza complesse con un grande sforzo umano, gli LLM permettono aggiustamenti rapidi semplicemente modificando i suggerimenti e gli esempi utilizzati.

Poiché gli LLM sono addestrati su grandi quantità di dati, racchiudono un ampio spettro di conoscenze di buon senso, rendendoli strumenti preziosi in scenari che richiedono un rapido adattamento a nuovi contesti o attività.

Tuttavia, utilizzare gli LLM porta anche delle sfide. Anche se forniscono un sacco di informazioni, a volte possono produrre output inconsistenti o fuorvianti, noti come "allucinazioni". Questo significa che sono necessari ulteriori affinamenti e valutazioni per garantire che gli output siano accurati e applicabili.

Lavoro Futuro

Andando avanti, puntiamo a migliorare l'approccio ContextGPT. Un'area di focus è l'addestramento specializzato per gli LLM mirati al HAR. Ottimizzare il modello usando fonti di dati affidabili potrebbe migliorarne le performance.

Inoltre, vogliamo indagare come la personalizzazione possa essere integrata nel modello. Le abitudini individuali degli utenti possono variare notevolmente, e adattare il modello per tenere conto di questi contesti personalizzati può aumentare la precisione del riconoscimento.

Un altro aspetto che esploreremo è l'integrazione di punteggi che rappresentano l'affidabilità di ciascuna attività suggerita dal modello. Associando un punteggio, si può migliorare il processo decisionale nella scelta delle attività da riconoscere.

Infine, valuteremo altri modelli LLM che potrebbero dare risultati migliori e affineremo le tecniche di integrazione utilizzate nel nostro sistema. Migliorando sia i processi di estrazione che di integrazione della conoscenza, possiamo migliorare significativamente le performance del HAR.

Conclusione

In sintesi, abbiamo sviluppato un nuovo metodo che sfrutta i modelli linguistici di grande dimensione per migliorare i sistemi di riconoscimento dell'attività umana consapevoli del contesto. Utilizzando conoscenze di buon senso, possiamo ridurre notevolmente lo sforzo umano coinvolto, migliorando al contempo l'efficienza dei tassi di riconoscimento in scenari con dati etichettati limitati.

La flessibilità offerta dagli LLM apre nuove possibilità per il futuro dei sistemi HAR, rendendoli più adattabili e facili da implementare nelle applicazioni della vita reale. Con una continua ricerca e sviluppo, speriamo di affinare questi sistemi e renderli ancora più efficaci per il Riconoscimento delle attività degli utenti.

Fonte originale

Titolo: ContextGPT: Infusing LLMs Knowledge into Neuro-Symbolic Activity Recognition Models

Estratto: Context-aware Human Activity Recognition (HAR) is a hot research area in mobile computing, and the most effective solutions in the literature are based on supervised deep learning models. However, the actual deployment of these systems is limited by the scarcity of labeled data that is required for training. Neuro-Symbolic AI (NeSy) provides an interesting research direction to mitigate this issue, by infusing common-sense knowledge about human activities and the contexts in which they can be performed into HAR deep learning classifiers. Existing NeSy methods for context-aware HAR rely on knowledge encoded in logic-based models (e.g., ontologies) whose design, implementation, and maintenance to capture new activities and contexts require significant human engineering efforts, technical knowledge, and domain expertise. Recent works show that pre-trained Large Language Models (LLMs) effectively encode common-sense knowledge about human activities. In this work, we propose ContextGPT: a novel prompt engineering approach to retrieve from LLMs common-sense knowledge about the relationship between human activities and the context in which they are performed. Unlike ontologies, ContextGPT requires limited human effort and expertise. An extensive evaluation carried out on two public datasets shows how a NeSy model obtained by infusing common-sense knowledge from ContextGPT is effective in data scarcity scenarios, leading to similar (and sometimes better) recognition rates than logic-based approaches with a fraction of the effort.

Autori: Luca Arrotta, Claudio Bettini, Gabriele Civitarese, Michele Fiori

Ultimo aggiornamento: 2024-03-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.06586

Fonte PDF: https://arxiv.org/pdf/2403.06586

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili