Bilanciare l'allenamento dell'IA per il riconoscimento delle azioni
Un nuovo framework affronta il bias d'azione nella comprensione dei video.
Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate
― 5 leggere min
Indice
- La sfida della Distribuzione a coda lunga
- Presentiamo ImparTail: Il nuovo prof
- Apprendimento curricolare
- Mascheratura della perdita
- Nuove attività di valutazione: testando le acque
- Il dataset Action Genome
- Diamo un'occhiata ai risultati
- Generazione di Grafi di Scene Video
- Anticipazione di Grafi di Scene
- Valutazione della robustezza: affrontare la tempesta
- Conclusione: guardando avanti
- Fonte originale
- Link di riferimento
Immagina di stare guardando un video dove una persona prende un libro e si siede su una sedia. Sembra semplice, vero? Ma nel mondo dell'IA e della visione computerizzata, capire cosa succede in quel video non è solo riconoscere oggetti come "persona," "libro" o "sedia." Si tratta di capire come questi oggetti interagiscono nel tempo. Qui entrano in gioco i grafi di scena spatio-temporali (STSG). Pensa agli STSG come a un modo sofisticato per mappare le azioni e le relazioni degli oggetti in un video, quasi come disegnare un albero genealogico, ma invece di membri della famiglia, abbiamo varie azioni e oggetti.
Distribuzione a coda lunga
La sfida dellaOra, ti starai chiedendo, qual è il problema? Beh, nella vita reale, alcune azioni accadono di continuo, mentre altre sono rare. Ad esempio, molte persone possono essere viste leggere un libro, ma quanto spesso vedi qualcuno che si bilancia su una sedia mentre lo fa? In termini tecnici, questo è conosciuto come una distribuzione a coda lunga. Le azioni comuni sono come la “testa” della coda, mentre quelle rare sono la “coda.”
Quando insegniamo ai modelli di IA a capire i video, tendono a concentrarsi molto su quelle azioni comuni e a ignorare completamente quelle rare, ma altrettanto importanti. Questo crea una prospettiva distorta, causando ai modelli di non "vedere" il quadro completo. Dobbiamo insegnare loro a prestare attenzione sia alle azioni popolari che a quelle oscure.
Presentiamo ImparTail: Il nuovo prof
Per combattere questo bias, introduciamo ImparTail, un framework di addestramento che funge da nuovo prof saggio a scuola. Invece di lasciare che gli studenti si concentrino solo sulle loro materie preferite, questo framework li guida a padroneggiare anche quelle difficili. Lo fa attraverso due strategie intelligenti: l’apprendimento curricolare e la mascheratura della perdita.
Apprendimento curricolare
Pensa all'apprendimento curricolare come a un modo per insegnare ai bambini partendo da argomenti più facili e gradualmente passando a quelli più complessi. Per l’IA, questo significa evidenziare inizialmente le azioni comuni e lentamente spostare l'attenzione verso quelle rare. Invece di buttare tutto addosso al modello in una volta sola, lo facciamo passo dopo passo.
Mascheratura della perdita
La mascheratura della perdita funziona come un filtro per bloccare il rumore. Nel nostro caso, aiuta il modello a ignorare le azioni comuni eccessivamente dominanti durante l'addestramento. Facendo ciò, possiamo assicurarci che ogni azione, sia popolare che rara, abbia un'opportunità equa nel processo di apprendimento.
Nuove attività di valutazione: testando le acque
Per vedere quanto bene i nostri modelli recentemente addestrati si comportano, abbiamo creato due nuovi compiti: Generazione di Grafi di Scene Spazio-Temporali Robusti e Anticipazione di Grafi di Scene Robusti. Questi compiti aiutano a valutare quanto bene i modelli affrontano le sfide del mondo reale-come cambiamenti di illuminazione o ostruzioni improvvise-che potrebbero influenzare le loro prestazioni.
Il dataset Action Genome
Per valutare i nostri metodi, abbiamo scelto una raccolta speciale di video conosciuta come il dataset Action Genome. È come una miniera d'oro per capire le diverse azioni e relazioni nei video, con una gamma di azioni comuni e rare. Il dataset ha 35 classi di oggetti (pensa ai vari oggetti che potresti vedere in una scena) e 25 classi di relazione (come questi oggetti si connettono), suddivise in tre categorie: Relazioni di Attenzione, Relazioni Spaziali e Relazioni di Contatto.
Diamo un'occhiata ai risultati
Diamo un'occhiata a quanto bene ha performato il nostro framework.
Generazione di Grafi di Scene Video
I primi esperimenti si sono concentrati sulla Generazione di Grafi di Scene Video (VidSGG), che mira a creare una sequenza di grafi di scena per i video osservati. Abbiamo testato il nostro modello contro alcuni modelli base popolari e abbiamo scoperto che il nostro nuovo approccio li ha costantemente superati. Immagina la tua squadra preferita che segna un touchdown-il nostro framework era come quel giocatore star.
Anticipazione di Grafi di Scene
Il passo successivo è stato l'Anticipazione di Grafi di Scene (SGA). Questo compito prevede cosa potrebbe succedere dopo nel video. Ancora una volta, il nostro framework ha performato in modo impressionante, dimostrando che possiamo prepararci per le azioni future proprio come cercare di prevedere cosa succederà nel prossimo colpo di scena del tuo romanzo giallo preferito.
Valutazione della robustezza: affrontare la tempesta
Ma ecco la sorpresa: non volevamo solo sapere quanto bene si comportassero i modelli in condizioni normali. Volevamo vedere come si comportavano quando le cose si facevano difficili. Così, abbiamo introdotto vari tipi di “corruzioni” o disturbi nei video di input, come aggiungere rumore o cambiare i colori.
Con grande soddisfazione, i modelli addestrati con ImparTail hanno mostrato una straordinaria capacità di affrontare queste sfide. È come andare a una festa e scoprire che gli outfit degli altri stanno andando a pezzi mentre il tuo rimane intatto-tu semplicemente brilli di più.
Conclusione: guardando avanti
In questa esplorazione della Generazione di Grafi di Scene Spatio-Temporali, abbiamo affrontato un problema significativo: il bias che deriva dalle distribuzioni a coda lunga nel riconoscimento delle azioni. ImparTail aiuta a creare una comprensione più equilibrata delle azioni, assicurandosi che nessuna relazione venga trascurata. Andando avanti, continueremo a perfezionare queste tecniche ed esplorare nuovi modi per aiutare l'IA a comprendere meglio scene complesse.
Nel nostro lavoro futuro, ci avventureremo anche nell'applicare il nostro approccio imparziale a vari scenari come il riconoscimento degli errori e l'anticipazione delle azioni. Così, la prossima volta che guardi un video, pensa a tutte le piccole, intricate interazioni che stanno accadendo ma che potrebbero passare inosservate-e a come stiamo lavorando per assicurarci che l'IA le veda tutte!
Titolo: Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation
Estratto: Spatio-Temporal Scene Graphs (STSGs) provide a concise and expressive representation of dynamic scenes by modelling objects and their evolving relationships over time. However, real-world visual relationships often exhibit a long-tailed distribution, causing existing methods for tasks like Video Scene Graph Generation (VidSGG) and Scene Graph Anticipation (SGA) to produce biased scene graphs. To this end, we propose ImparTail, a novel training framework that leverages curriculum learning and loss masking to mitigate bias in the generation and anticipation of spatio-temporal scene graphs. Our approach gradually decreases the dominance of the head relationship classes during training and focuses more on tail classes, leading to more balanced training. Furthermore, we introduce two new tasks, Robust Spatio-Temporal Scene Graph Generation and Robust Scene Graph Anticipation, designed to evaluate the robustness of STSG models against distribution shifts. Extensive experiments on the Action Genome dataset demonstrate that our framework significantly enhances the unbiased performance and robustness of STSG models compared to existing methods.
Autori: Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate
Ultimo aggiornamento: 2024-11-20 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2411.13059
Fonte PDF: https://arxiv.org/pdf/2411.13059
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/cvpr-org/author-kit
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document