Migliorare la stima della posa umana in condizioni di scarsa illuminazione
Un nuovo approccio migliora l'accuratezza della stima della postura umana in condizioni di scarsa illuminazione.
― 6 leggere min
Indice
La stima della postura umana è un compito importante nella computer vision, usato per capire come le persone si muovono e interagiscono. Di solito, questo lavoro viene fatto in situazioni con buona illuminazione, ma molte situazioni della vita reale comportano scarsa illuminazione. Riconoscendo questa sfida, i ricercatori hanno iniziato a cercare modi per stimare le posture umane in condizioni di luce estremamente bassa, dove i metodi tradizionali faticano.
I metodi esistenti di solito dipendono da Immagini chiare con luce sufficiente, il che significa che non funzionano bene quando si prova ad analizzare immagini scattate al buio o in ambienti poco illuminati. In generale, questi metodi richiedono due set di immagini per l'addestramento: uno scattato in condizioni ben illuminate e un altro in condizioni di bassa illuminazione, insieme a un riferimento per come dovrebbero apparire le posture. Tuttavia, ottenere riferimenti accurati per le immagini in Bassa Luce può essere molto difficile.
Questo articolo introduce un nuovo approccio al problema della stima della postura umana in condizioni di luce estremamente bassa, che non richiede immagini abbinate. Invece, utilizza un sistema con due Insegnanti che guidano un Modello studente a imparare e migliorare la sua capacità di rilevare posture umane nel buio.
Problema con i Metodi Attuali
La maggior parte delle tecniche attuali per la stima della postura umana si concentra su scenari con buona illuminazione. Questo crea un divario quando si tratta di analizzare immagini scattate di notte o in spazi scarsamente illuminati. Le condizioni di scarsa illuminazione presentano sfide significative, come rumore, basso contrasto e difficoltà nel rilevare punti chiave sul corpo di una persona.
Quando i metodi esistenti utilizzano immagini abbinate ben illuminate e in bassa luce per l'addestramento, spesso falliscono in situazioni reali. La difficoltà sta nel catturare immagini in bassa luce in modo accurato e poi annotarle con riferimenti corretti. Poiché questi metodi dipendono fortemente dalla disponibilità di dati accurati in bassa luce, risultano spesso impraticabili.
Un Nuovo Metodo
Per affrontare questi problemi, proponiamo una nuova idea che si basa esclusivamente su immagini scattate in condizioni ben illuminate. Il nostro metodo ha due fasi principali: prima prepariamo il nostro modello usando immagini ben illuminate; poi miglioriamo la capacità del nostro modello di lavorare con immagini in bassa luce.
La nostra innovazione principale è un framework a doppio insegnante che consiste in un insegnante principale e un insegnante complementare. Entrambi gli insegnanti lavorano insieme per generare etichette preziose da cui il modello può imparare senza richiedere alcun dato di verità di fondo in bassa luce.
Fase Uno: Addestramento con Immagini Ben Illuminate
Il primo passo implica l'addestramento di entrambi gli insegnanti usando immagini ben illuminate. Questo dà agli insegnanti la capacità di comprendere le posture umane in condizioni chiare. L'insegnante principale si concentra sull'identificazione del centro di una persona e sulla stima di dove si trovano i punti chiave (come spalle, gomiti e ginocchia) rispetto a quel centro. Nel frattempo, l'insegnante complementare è progettato per aiutare quando l'insegnante principale non riesce a identificare il centro di una persona, specialmente in immagini in bassa luce.
Durante questa fase, generiamo anche immagini false in bassa luce a partire da immagini ben illuminate modificandole per imitare le condizioni di bassa luce. Applicando tecniche per scurire le immagini e aggiungere rumore, prepariamo gli insegnanti a imparare in un ambiente più vario.
Fase Due: Sfruttare i Dati in Bassa Luce
Nella seconda fase, prendiamo ciò che gli insegnanti hanno appreso e lo usiamo per addestrare il modello studente. L'obiettivo qui è migliorare la capacità dello studente di rilevare posture umane in vere immagini in bassa luce. Presentando sia immagini reali in bassa luce sia le precedentemente create immagini false in bassa luce, possiamo aiutare lo studente a comprendere come affrontare le sfide delle situazioni di bassa luce.
Lo studente viene addestrato utilizzando sia strategie supervisionate che non supervisionate. La strategia supervisionata assicura che lo studente impari sia dalle immagini ben illuminate che da quelle false in bassa luce, mentre la strategia non supervisionata consente allo studente di apprendere dalle etichette generate dagli insegnanti in reali condizioni di bassa luce.
Perché Due Insegnanti?
Utilizzare due diversi tipi di insegnanti consente al modello studente di apprendere in modo più efficace. Ogni insegnante ha un modo unico di elaborare e interpretare le immagini, il che fornisce dati di addestramento più diversificati. L'insegnante principale si concentra sul rilevamento dei centri, mentre l'insegnante complementare si concentra sui punti chiave. Questa strategia aiuta lo studente ad apprendere dai punti di forza combinati di entrambi gli insegnanti.
L'insegnante complementare gioca un ruolo cruciale quando l'insegnante principale non riesce a rilevare il centro di una persona, specialmente in situazioni di bassa luce. Può prevedere posture umane anche quando è difficile vedere, dando così allo studente una migliore possibilità di eccellere.
Risultati Sperimentali
Abbiamo condotto esperimenti utilizzando un dataset speciale creato per valutare la stima della postura umana in condizioni di bassa luce estremamente. Questo dataset includeva immagini in bassa luce catturate in ambienti realmente bui, così come immagini ben illuminate. Abbiamo testato il nostro metodo contro approcci all'avanguardia (SOTA) che richiedono immagini di verità di fondo in bassa luce.
I nostri risultati sperimentali hanno mostrato che il nostro nuovo metodo ha superato diverse tecniche esistenti, raggiungendo un miglioramento significativo. La combinazione di entrambi gli insegnanti ha fornito etichette più affidabili, dalle quali il modello studente è stato in grado di apprendere efficacemente.
Metriche di Performance
Per valutare la performance del nostro metodo, abbiamo utilizzato metriche standard nel campo, confrontando quanto bene il nostro modello stimava le posture umane rispetto alle posture reali nel dataset. Abbiamo ottenuto una migliore precisione in condizioni di bassa luce e mantenuto buone prestazioni in condizioni ben illuminate, dimostrando l'efficacia del nostro approccio.
Discussione
I risultati indicano che il nostro metodo a doppio insegnante è un contributo prezioso nel campo della stima della postura umana, in particolare in ambienti di bassa luce. La capacità di addestrarsi utilizzando solo immagini ben illuminate, pur raggiungendo prestazioni competitive, apre nuove possibilità per applicazioni pratiche.
Il nostro approccio può essere utile in vari scenari, tra cui sorveglianza, realtà virtuale e interazione uomo-computer, dove le condizioni di illuminazione possono cambiare rapidamente.
Conclusione
La stima della postura umana in scenari di bassa luce è un compito difficile con cui i metodi esistenti faticano. Il nostro framework a doppio insegnante fornisce una soluzione innovativa che consente a un modello studente di imparare efficacemente da immagini ben illuminate senza aver bisogno di dati di verità di fondo in bassa luce.
Sfruttando due insegnanti complementari, miglioriamo il processo di apprendimento, portando a una maggiore accuratezza in condizioni di bassa luce estremamente. Questo progresso non solo spinge i confini nel campo della computer vision, ma ha anche il potenziale per applicazioni nel mondo reale dove l'illuminazione è imprevedibile.
In futuro, ulteriori ricerche possono esplorare come migliorare il framework e applicare le scoperte in diversi settori, come la robotica e i sistemi autonomi, dove comprendere i movimenti umani in vari ambienti è fondamentale.
Titolo: Domain-Adaptive 2D Human Pose Estimation via Dual Teachers in Extremely Low-Light Conditions
Estratto: Existing 2D human pose estimation research predominantly concentrates on well-lit scenarios, with limited exploration of poor lighting conditions, which are a prevalent aspect of daily life. Recent studies on low-light pose estimation require the use of paired well-lit and low-light images with ground truths for training, which are impractical due to the inherent challenges associated with annotation on low-light images. To this end, we introduce a novel approach that eliminates the need for low-light ground truths. Our primary novelty lies in leveraging two complementary-teacher networks to generate more reliable pseudo labels, enabling our model achieves competitive performance on extremely low-light images without the need for training with low-light ground truths. Our framework consists of two stages. In the first stage, our model is trained on well-lit data with low-light augmentations. In the second stage, we propose a dual-teacher framework to utilize the unlabeled low-light data, where a center-based main teacher produces the pseudo labels for relatively visible cases, while a keypoints-based complementary teacher focuses on producing the pseudo labels for the missed persons of the main teacher. With the pseudo labels from both teachers, we propose a person-specific low-light augmentation to challenge a student model in training to outperform the teachers. Experimental results on real low-light dataset (ExLPose-OCN) show, our method achieves 6.8% (2.4 AP) improvement over the state-of-the-art (SOTA) method, despite no low-light ground-truth data is used in our approach, in contrast to the SOTA method. Our code will be available at:https://github.com/ayh015-dev/DA-LLPose.
Autori: Yihao Ai, Yifei Qi, Bo Wang, Yu Cheng, Xinchao Wang, Robby T. Tan
Ultimo aggiornamento: 2024-07-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.15451
Fonte PDF: https://arxiv.org/pdf/2407.15451
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.