Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzando la stima della posizione 3D umana negli sport

Un nuovo metodo migliora l'analisi dei movimenti degli atleti usando la calibrazione delle camere.

― 7 leggere min


Stima della postura 3DStima della postura 3Dnegli sportavanzate.degli atleti con tecniche fotograficheMigliorare l'analisi del movimento
Indice

Nei broadcast sportivi, catturare il movimento degli atleti è una sfida. Le camere usate per filmare eventi sportivi creano immagini piatte che mostrano gli atleti in 2D invece di 3D. Per analizzare come gli atleti si muovono nella vita reale, dobbiamo capire dove si trovano gli arti in tre dimensioni. Questo richiede di conoscere la disposizione del campo o della pista, che può essere complicato. Tuttavia, le linee sui campi sportivi possono aiutarci a calibrare la camera e capire meglio la scena.

Quando ci concentriamo su un atleta da vicino, i segni sul campo possono diventare difficili da vedere, rendendo complicata la calibrazione necessaria della camera. Per risolvere questo problema, proponiamo un metodo chiamato registrazione parziale del campo sportivo, in cui usiamo alcuni dei marcatori visibili del campo per stabilire la Calibrazione della Camera. Questo ci aiuta a stimare le Posizioni 3D degli atleti in modo più efficace.

Il Problema con la Stima della Posizione Umana 3D Monoculare

La stima della posizione umana (HPE) è il processo di identificare dove si trovano le articolazioni di una persona nelle immagini. Le tecniche moderne possono rilevare con precisione le posizioni delle articolazioni in immagini 2D. Tuttavia, sollevare questi punti 2D in pose 3D, che rappresentano come si muovono realmente gli atleti, è un compito complesso. Molti metodi attuali si basano molto sulla disposizione della scena e sulla posizione della camera, e errori in queste aree possono portare a errori significativi nella stima della posa 3D.

Il problema diventa ancora più evidente quando si cerca di analizzare la cinematica della corsa degli atleti, in particolare negli eventi di mezzofondo come i 400m. Le piccole variazioni nei movimenti degli atleti devono essere catturate con alta precisione per rilevare segni di affaticamento o cambiamenti nelle prestazioni.

Utilizzare Dati Sintetici per il Ground Truth

Creare un dataset accurato per valutare i metodi di stima della posa è una parte fondamentale per migliorare queste tecniche. Tuttavia, ottenere dati del mondo reale è spesso difficile, richiede tempo e costoso. Per superare questo problema, abbiamo generato un Dataset Sintetico composto da immagini che mostrano atleti in corsa su una pista di 400m. Questo dataset ci consente di creare dati di verità fondamentale per le posizioni 3D delle articolazioni e può aiutarci a valutare i metodi attuali di HPE 3D monoculare.

Il dataset è stato creato utilizzando software grafico avanzato. Abbiamo generato vari personaggi con diversi tipi di corpo, altezze e stili di corsa. Ogni immagine cattura l'atleta da angolazioni diverse, simulando come apparirebbero durante un vero broadcast.

Sfide nella Calibrazione della Camera

Nei filmati trasmessi, le impostazioni della camera seguono tipicamente gli atleti mentre corrono. Tuttavia, la vista cattura spesso solo una piccola parte della pista, rendendo difficile avere una comprensione completa della scena e effettuare una calibrazione accurata della camera. I metodi attuali per la registrazione del campo sportivo si basano solitamente su riprese ampie che mostrano più del campo, ma non è il caso con le riprese ravvicinate degli atleti.

Per affrontare questo, abbiamo sviluppato un metodo di registrazione parziale del campo sportivo che calcola un insieme di prospettive della camera utilizzando i segni delle corsie visibili. Questo approccio ci consente di lavorare con la vista limitata della pista catturata durante i broadcast. Determinando un "punto di fuga" basato sui segni delle corsie, possiamo creare molteplici potenziali calibrazioni della camera che si adattano alla scena.

Stimare Pose 3D con Registrazione Parziale del Campo Sportivo

Una volta stabilito un insieme di possibili calibrazioni della camera, possiamo iniziare a stimare la posa 3D dell'atleta. Proiettando la geometria 3D conosciuta della scena sull'immagine 2D catturata dalla camera, usiamo fasci per determinare esattamente dove si trovano le articolazioni dell'atleta nello spazio 3D.

Il processo inizia identificando il punto in cui il piede dell'atleta tocca il suolo, permettendoci di determinare la sua posizione sulla pista. Da lì, possiamo costruire la posa dell'atleta tracciando le connessioni tra le loro articolazioni, utilizzando lunghezze e angoli degli arti noti.

Valutazione dei Metodi Attuali

Per valutare quanto bene funzionano i metodi di HPE 3D monoculare esistenti, utilizziamo il dataset sintetico che abbiamo creato. Confrontiamo i risultati di diversi metodi, comprese le tecniche all'avanguardia e il nostro metodo proposto che tiene conto della registrazione parziale del campo sportivo.

Utilizzando metriche come l'errore di riproiezione, misuriamo quanto da vicino le pose stimate corrispondano ai dati di verità fondamentale. Valutiamo anche le posizioni delle articolazioni 3D, esaminando con quale precisione possiamo determinare gli angoli delle ginocchia, che è cruciale per comprendere le prestazioni di un atleta.

Risultati degli Esperimenti

Nei nostri esperimenti, abbiamo scoperto che mentre i metodi all'avanguardia eccellevano nella stima delle pose 2D, avevano notevoli difficoltà con le pose 3D. Molti metodi hanno prodotto risultati che non sarebbero stati accurati abbastanza per un'analisi cinematica seria. Integrando il nostro metodo di registrazione parziale del campo sportivo, abbiamo ottenuto risultati molto migliori, consentendo una comprensione più chiara dei movimenti degli atleti.

Confronto dei Metodi

  1. Metodo All'Avanguardia: Questo metodo ha mostrato buone prestazioni per le pose 2D ma aveva grandi errori nel sollevare quelle pose in 3D. L'accuratezza complessiva non era sufficiente per un'analisi dettagliata dei movimenti.

  2. Metodo Migliorato con Calibrazione della Camera: Includendo la calibrazione della camera, abbiamo migliorato i risultati. Questo aggiustamento ha aiutato ad allineare meglio il posizionamento assoluto delle articolazioni 3D con la verità fondamentale.

  3. Il Nostro Metodo con Conoscenza Contestuale: Abbiamo portato i nostri miglioramenti ulteriormente aggiungendo conoscenza specifica sulla dinamica della corsa. Ottimizzando il nostro approccio in base al ritmo della corsa, abbiamo ottenuto stime ancora migliori della posa dell'atleta.

Applicazione del Metodo

Il nostro obiettivo è applicare questo metodo raffinato di HPE 3D monoculare in scenari reali, in particolare analizzando filmati di veri broadcast sportivi. Finora, abbiamo visto risultati promettenti, ma la sfida rimane nel garantire che il nostro metodo possa generalizzarsi a diverse piste, atleti e impostazioni della camera.

L'aspetto più cruciale di questo lavoro è che ha il potenziale di essere impiegato nella formazione e nel coaching. Con dati cinematica precisi estratti dai broadcast, i coach possono analizzare le tecniche degli atleti, aiutandoli a prendere decisioni informate su aggiustamenti per migliorare le prestazioni.

Affrontare la Distorsione dell'Obiettivo

Durante i nostri esperimenti, abbiamo considerato come la distorsione dell'obiettivo potesse influenzare i nostri risultati. Questa distorsione è spesso presente nelle immagini catturate con obiettivi teleobiettivi, specialmente quando la camera zooma sugli atleti. Per valutare il suo impatto, abbiamo applicato un modello di distorsione dell'obiettivo alle nostre rappresentazioni sintetiche, che ci ha permesso di vedere come il nostro metodo si comportasse in condizioni del mondo reale.

Dopo aver tenuto conto della distorsione dell'obiettivo, abbiamo scoperto che il nostro metodo migliorava comunque l'accuratezza della stima 3D. Tuttavia, gli errori erano maggiori rispetto alle scene non distorte, indicando che la distorsione dell'obiettivo è un fattore importante nella calibrazione della camera e nella stima della posa.

Direzioni Future

In futuro, puntiamo a perfezionare la nostra calibrazione parziale della camera ed esplorare modi per migliorare la nostra stima della posa tramite ray-casting. Crediamo che ottimizzare questi due aspetti insieme possa portare a risultati ancora migliori.

Oltre alla corsa, il nostro metodo può essere adattato a vari sport incorporando diverse configurazioni del campo e impostazioni della camera. Questa flessibilità ci consente di raccogliere grandi quantità di dati che possono contribuire a una comprensione più profonda del movimento umano.

Inoltre, speriamo che mentre le nostre tecniche evolvono, possano fornire preziose intuizioni a coach e atleti, migliorando le strategie di allenamento e portando infine a prestazioni migliori.

Conclusione

In sintesi, il nostro lavoro presenta un approccio innovativo alla stima della posizione umana 3D monoculare incorporando la conoscenza della geometria della scena e utilizzando metodi di registrazione parziale del campo sportivo. Creando un dataset sintetico e valutando varie tecniche, abbiamo dimostrato l'importanza della calibrazione accurata della camera per ottenere dati cinematici validi.

Mentre ci muoviamo avanti, siamo entusiasti delle applicazioni di questa ricerca nel mondo dello sport e del suo potenziale impatto sulla formazione e prestazioni degli atleti. Catturando intuizioni dettagliate sul movimento umano, speriamo di contribuire allo sviluppo continuo di metodi di allenamento efficaci che possano migliorare le prestazioni degli atleti nel complesso.

Fonte originale

Titolo: Monocular 3D Human Pose Estimation for Sports Broadcasts using Partial Sports Field Registration

Estratto: The filming of sporting events projects and flattens the movement of athletes in the world onto a 2D broadcast image. The pixel locations of joints in these images can be detected with high validity. Recovering the actual 3D movement of the limbs (kinematics) of the athletes requires lifting these 2D pixel locations back into a third dimension, implying a certain scene geometry. The well-known line markings of sports fields allow for the calibration of the camera and for determining the actual geometry of the scene. Close-up shots of athletes are required to extract detailed kinematics, which in turn obfuscates the pertinent field markers for camera calibration. We suggest partial sports field registration, which determines a set of scene-consistent camera calibrations up to a single degree of freedom. Through joint optimization of 3D pose estimation and camera calibration, we demonstrate the successful extraction of 3D running kinematics on a 400m track. In this work, we combine advances in 2D human pose estimation and camera calibration via partial sports field registration to demonstrate an avenue for collecting valid large-scale kinematic datasets. We generate a synthetic dataset of more than 10k images in Unreal Engine 5 with different viewpoints, running styles, and body types, to show the limitations of existing monocular 3D HPE methods. Synthetic data and code are available at https://github.com/tobibaum/PartialSportsFieldReg_3DHPE.

Autori: Tobias Baumgartner, Stefanie Klatt

Ultimo aggiornamento: 2023-04-10 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2304.04437

Fonte PDF: https://arxiv.org/pdf/2304.04437

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili