Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Medicina delle dipendenze

Usare l'IA per individuare il fumo nei media

Gli strumenti di intelligenza artificiale possono rilevare contenuti legati al fumo in testi e immagini per migliorare la salute pubblica.

― 6 leggere min


L'IA Affronta ilL'IA Affronta ilContenuto sul Fumomigliorare la salute.Rilevare il fumo nei media per
Indice

Il fumo è una delle principali cause di morte nel mondo. Porta a circa 8 milioni di decessi ogni anno, influenzando la salute in molti modi. I fumatori possono avere problemi cardiaci, malattie respiratorie e vari tipi di cancro. In alcune regioni, come i paesi OCSE, circa il 15% delle persone dai 15 anni in su fuma. Nell'Unione Europea, questo numero è leggermente più alto, al 17%. Inoltre, il 15% delle morti legate al fumo è causato dal fumo passivo.

L'Influenza dei Media

Film e media giocano un ruolo su come il fumo è visto dal pubblico. Quando il fumo viene mostrato frequentemente nei film, può sembrare più accettabile, specialmente per i giovani. Tuttavia, misurare l'impatto esatto dei media sul fumo è un compito complicato. Ad esempio, i dati sugli annunci online sono spesso difficili da ottenere, rendendo difficile analizzare come influenzano le abitudini del fumo.

Per affrontare questa sfida, i ricercatori hanno esplorato vari metodi. Suggeriscono che tenere traccia di come il fumo è rappresentato nei media può aiutare a ridurne l'appeal. Alcune tecniche per questo includono il monitoraggio degli annunci, l'uso di sondaggi e l'applicazione dell'intelligenza artificiale (IA) per analizzare i contenuti.

Il Ruolo dell'Intelligenza Artificiale

L'IA ha mostrato promesse nella ricerca e nella politica sul tabacco. Può aiutare a identificare contenuti legati al fumo sia nelle immagini che nel testo, rendendola uno strumento prezioso per gli sforzi di salute pubblica. Tuttavia, raccogliere dati per l'addestramento dell'IA può richiedere molte risorse e tempo.

Nel mondo dell'elaborazione delle immagini, un esempio notevole è un Modello chiamato ResNet, che è stato addestrato utilizzando un grande insieme di dati con oltre 14 milioni di immagini. Per il testo, un altro modello noto come BERT è stato addestrato utilizzando una significativa quantità di materiale scritto. Modelli generativi come GPT hanno dataset ancora più grandi, migliorando ulteriormente le loro capacità.

Gli strumenti IA possono analizzare testo e immagini usando tecniche come il topic modeling e il clustering. Inoltre, il Riconoscimento di entità nominate può identificare termini specifici legati al fumo nei contenuti scritti. Per le immagini, metodi come la classificazione e il rilevamento di oggetti possono aiutare a trovare visivi legati al fumo.

I modelli multimodali stanno guadagnando attenzione, poiché possono analizzare insieme testo e immagini. Questo è particolarmente rilevante nei film, dove riconoscere le scene di fumo può essere complicato rispetto alle immagini normali.

La Necessità di Dataset

Attualmente, non c'è un dataset ampiamente disponibile focalizzato specificamente sui contenuti legati al fumo. Questa scarsità di dati rende difficile l'addestramento di nuovi modelli. Per affrontare questa lacuna, i ricercatori hanno proposto di usare modelli IA esistenti già addestrati. Questo permette loro di identificare in modo efficiente contenuti legati al fumo sia nel testo che nelle immagini. Combinare questi strumenti IA aiuta a sfruttare diversi tipi di dati.

Come Funziona il Sistema

Al centro di questo approccio c'è un metodo strutturato per gestire diversi formati di dati. I video vengono analizzati da modelli di elaborazione delle immagini, mentre i testi vengono elaborati utilizzando modelli di linguaggio. Per l'analisi video, viene utilizzato un modello chiamato CLIP-ViT-B-32, capace di comprendere più lingue, incluso l'ungherese.

Il processo inizia controllando il formato dei dati in arrivo. Per i video, l'analisi li scompone in singoli fotogrammi campionando ogni secondo. Questi fotogrammi vengono ridimensionati a una dimensione standard per un'analisi coerente.

Il filtro è il passo successivo, dove il modello IA esamina le immagini campionate per identificare quelle legate al fumo. Un termine specifico, "fumo," è usato come punto di riferimento. Confrontando le immagini con questo termine, il modello può evidenziare contenuti rilevanti.

Classificazione delle Immagini

Una volta filtrate, viene applicato un ulteriore modello di classificazione per migliorare l'accuratezza. Modelli come EfficientNet e ResNet vengono utilizzati per questo compito, con EfficientNet che si dimostra il più efficace nell'identificare immagini di fumo.

Questi modelli sono stati addestrati utilizzando dataset che includono immagini di fumatori e non fumatori. Raffinando le immagini attraverso questo passaggio di classificazione, i ricercatori possono migliorare l'accuratezza generale del sistema di rilevamento del fumo.

Elaborazione dei Dati Testuali

Rilevare termini legati al fumo nel testo comporta l'uso del riconoscimento di entità nominate. Poiché non esisteva un dataset esistente per termini legati al fumo in ungherese, è stato adottato un approccio innovativo. Utilizzando strumenti generativi come ChatGPT, i ricercatori hanno compilato un dizionario di parole e frasi legate al fumo.

Sono state create combinazioni casuali di questi termini per formare blocchi, che sono stati poi usati per generare testi che includevano i termini specifici sul fumo. Questo ha generato un corpus robusto di contenuti legati al fumo per l'addestramento del modello linguistico.

Diversi modelli linguistici sono stati testati, e il modello XLM-RoBERTa si è rivelato il migliore nell'identificare accuratamente termini legati al fumo nei testi ungheresi.

Miglioramento Continuo

Per garantire un'accuratezza continua, il sistema incorpora feedback umano. Questo permette di aggiustare le impostazioni del modello e affinare i dati usati per l'addestramento. Qualsiasi errore commesso durante il processo di rilevamento può essere corretto e aggiornato nel modello per migliorare le performance future.

Testare il Sistema

Per valutare il lato dell'elaborazione delle immagini del sistema, i video sono stati presi da YouTube, specificamente brevi pubblicità delle aziende di tabacco. I video sono stati suddivisi in fotogrammi per il rilevamento del fumo. I modelli IA sono stati in grado di identificare una quantità significativa di contenuti legati al fumo nei video, raggiungendo un'accuratezza ragionevole nelle loro previsioni.

Combinando i risultati sia del filtraggio multimodale che del modello di classificazione delle immagini fine-tuned, i ricercatori sono riusciti a migliorare le performance del sistema nel rilevamento del fumo.

Conclusione

Gli sforzi per identificare contenuti legati al fumo attraverso modelli IA mostrano il potenziale della tecnologia per affrontare problemi di salute pubblica. Anche se rimangono sfide, come la mancanza di dataset specifici e la complessità delle rappresentazioni del fumo nei media, la combinazione di metodi IA consolidati e feedback umano offre una strada promettente.

Questo approccio potrebbe portare a tassi di fumo ridotti, comprendendo meglio come i media influenzano la percezione pubblica. Il lavoro continuo in quest'area ha il potenziale per strategie di controllo del tabacco più efficaci e, in ultima analisi, migliori risultati di salute per le comunità.

Fonte originale

Titolo: A multimodal deep learning architecture for smoking detection with a small data approach

Estratto: IntroductionCovert tobacco advertisements often raise regulatory measures. This paper presents that artificial intelligence, particularly deep learning, has great potential for detecting hidden advertising and allows unbiased, reproducible, and fair quantification of tobacco-related media content. MethodsWe propose an integrated text and image processing model based on deep learning, generative methods, and human reinforcement, which can detect smoking cases in both textual and visual formats, even with little available training data. ResultsOur model can achieve 74% accuracy for images and 98% for text. Further-more, our system integrates the possibility of expert intervention in the form of human reinforcement. ConclusionsUsing the pre-trained multimodal, image, and text processing models available through deep learning makes it possible to detect smoking in different media even with few training data.

Autori: Robert Lakatos, P. Pollner, A. Hajdu, T. Joo

Ultimo aggiornamento: 2023-09-19 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.09.19.23295710

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.09.19.23295710.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili