Un nuovo metodo per generare gesti che si abbinano efficacemente al parlato.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo metodo per generare gesti che si abbinano efficacemente al parlato.
― 7 leggere min
Riconoscere la soggettività nelle notizie è fondamentale per avere informazioni accurate.
― 6 leggere min
VEATIC offre un dataset più ricco per studiare le emozioni umane nel contesto.
― 7 leggere min
Valutare il realismo e la qualità dei video generati dal testo.
― 6 leggere min
Un nuovo metodo migliora la compressione delle immagini per vari tipi di immagini.
― 7 leggere min
Questo articolo parla del bias nella lunghezza dei frame nel recupero testo-video e di un nuovo approccio per affrontarlo.
― 6 leggere min
Un nuovo metodo migliora il modo in cui la tecnologia rileva il comportamento umano nei contesti di gruppo.
― 5 leggere min
Scopri come LP-CLIP rinforza la robustezza dei modelli multimodali tipo CLIP.
― 5 leggere min
Un dataset rivoluzionario aiuta lo studio della traduzione dei testi del K-pop.
― 8 leggere min
AVMIT offre ai ricercatori spunti su come suono e visione si collegano nel riconoscimento delle azioni.
― 6 leggere min
Un nuovo metodo migliora il rilevamento di audio falso nei sistemi di riconoscimento vocale.
― 6 leggere min
Questo studio esplora come il ritaglio possa migliorare il richiamo video concentrandosi sulla salienza visiva.
― 5 leggere min
Valutare modelli grandi su compiti visivi di basso livello tramite Q-Bench.
― 5 leggere min
Un nuovo metodo migliora le registrazioni audio usando indizi visivi.
― 6 leggere min
Esplorare l'impatto dei contenuti generati dall'IA sull'arte del raccontare storie.
― 7 leggere min
Un nuovo sistema collega immagini emotive alla musica per una scoperta migliore.
― 6 leggere min
MFTR migliora la precisione della previsione della viewport per esperienze video immersive.
― 6 leggere min
Un sistema per rendere il controllo remoto degli UAV più sicuro e affidabile usando il Digital Twin.
― 6 leggere min
Un nuovo framework identifica e misura il bias nei sistemi di generazione di immagini.
― 9 leggere min
Esplora come i Modelli di Diffusione migliorano la super-risoluzione in vari campi.
― 6 leggere min
Un nuovo modello migliora i video a bassa qualità riducendo al contempo le richieste di elaborazione.
― 8 leggere min
SAMA migliora la valutazione della qualità di immagini e video tramite tecniche di campionamento efficaci.
― 5 leggere min
Questo studio esamina le difficoltà nell'usare l'apprendimento contrastivo per comprendere i video musicali.
― 6 leggere min
Un nuovo metodo semplifica il design degli occhi dei personaggi animati.
― 6 leggere min
Un nuovo metodo migliora la compressione delle immagini concentrandosi sulle bande di frequenza.
― 6 leggere min
Vlogger semplifica il video blogging, rendendo tutto più veloce e facile per i creatori.
― 6 leggere min
Esaminando l'uso dell'energia e l'impatto dello streaming video sull'ambiente.
― 6 leggere min
Un approccio unificato per valutare l'alimentazione dei pesci usando dati audio e video.
― 5 leggere min
Scopri come l'IA sta cambiando la creazione e lo streaming di video.
― 6 leggere min
Un dataset fatto apposta per testare la qualità video in situazioni di videoconferenza.
― 6 leggere min
I ricercatori hanno sviluppato un framework per capire meglio video e testo.
― 6 leggere min
Un nuovo metodo migliora la segmentazione audio-visiva senza etichette dettagliate.
― 6 leggere min
PIAVE aiuta le macchine a estrarre le voci in modo chiaro, anche quando i parlanti girano la testa.
― 6 leggere min
Un nuovo sistema che collega musica e lingua per una comprensione migliore.
― 6 leggere min
Impara a progettare manifesti che comunicano messaggi in modo chiaro e attraente.
― 5 leggere min
Un nuovo dataset migliora la capacità dell'AI di interpretare il comportamento umano nei video.
― 7 leggere min
Spica migliora l'accesso ai video per utenti non vedenti e ipovedenti tramite l'interattività.
― 5 leggere min
Esplorando metodi per migliorare le performance dei robot in ambienti imprevedibili.
― 5 leggere min
Un nuovo metodo trasforma le voci usando le caratteristiche facciali per diverse applicazioni.
― 9 leggere min
AV-SUPERB valuta modelli audio e visivi su vari task per migliorare le prestazioni.
― 6 leggere min