Un nuovo dataset supporta strumenti migliori per rilevare la frode nei documenti d'identità.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo dataset supporta strumenti migliori per rilevare la frode nei documenti d'identità.
― 6 leggere min
MMPKUBase offre oltre 52.000 soggetti cinesi con immagini ricche.
― 5 leggere min
TEAdapter migliora la generazione di musica da testo, dando agli utenti maggiore controllo e creatività.
― 5 leggere min
Un nuovo dataset e metodo migliorano il video grounding per narrazioni complesse.
― 8 leggere min
Un nuovo metodo migliora il rilevamento dei deepfake facciali.
― 6 leggere min
Lighthouse semplifica il recupero dei momenti video e la rilevazione dei punti salienti per i ricercatori.
― 5 leggere min
Nuovo modello di machine learning migliora le tecniche di separazione delle sorgenti audio.
― 5 leggere min
Un sistema per migliorare la chiarezza del parlato in ambienti rumorosi usando occhiali smart.
― 5 leggere min
COM Kitchens offre video di cucina non editati per studiare i processi di preparazione del cibo.
― 5 leggere min
ReSyncer migliora la qualità video e la flessibilità per i movimenti delle labbra sincronizzati con l'audio.
― 5 leggere min
Introdurre la sintonizzazione neurale per migliorare efficacemente le capacità multitasking dei grandi modelli.
― 6 leggere min
Un nuovo metodo migliora le ricerche di prodotti attraverso diversi formati multimediali.
― 6 leggere min
Un nuovo approccio si concentra su piccole incoerenze nella rilevazione dei deepfake.
― 6 leggere min
Vivi il Festival del Drago con tecniche di canottaggio virtuali innovative.
― 8 leggere min
Presentiamo un framework che migliora la rilevazione della depressione attraverso interviste strutturate.
― 6 leggere min
Un metodo nuovo per creare immagini chiare da testi complessi.
― 5 leggere min
Combinare immagini e testo migliora le previsioni degli eventi futuri.
― 7 leggere min
Questo articolo esamina come l'ordine delle canzoni influisca sulle esperienze di ascolto nei dischi.
― 7 leggere min
Mu-MAE introduce nuovi metodi per riconoscere le attività umane attraverso più fonti di dati.
― 7 leggere min
Un nuovo sistema colpisce il discorso d'odio nei meme in modo efficace.
― 6 leggere min
La tecnica ViMo trasforma i video di tutti i giorni in movimenti 3D realistici.
― 8 leggere min
Esplora i progressi e le sfide nella tecnologia VR wireless per più utenti.
― 7 leggere min
Un nuovo modello per un miglioramento delle immagini in condizioni di scarsa luminosità più veloce ed efficace.
― 6 leggere min
Un nuovo metodo per misurare la percezione della profondità nelle immagini 3D in VR.
― 7 leggere min
Un metodo per riassumere video da diverse culture e fonti di notizie.
― 5 leggere min
Un nuovo metodo semplifica l'editing di scene 3D usando solo un'immagine 2D.
― 6 leggere min
Un nuovo metodo mira a sistemi di autenticazione facciale multipla in modo efficiente.
― 9 leggere min
Un sistema innovativo automatizza la generazione di suoni per film e giochi.
― 8 leggere min
Scopri come l'Attenzione Armonizzante migliora il blending delle immagini concentrandosi sulla geometria e sulla texture.
― 6 leggere min
Migliorare la qualità dell'immagine porta a valutazioni migliori della dimensione della pupilla.
― 6 leggere min
I benchmark attuali non valutano bene la capacità dei modelli di collegare dati audio e visivi.
― 6 leggere min
L'automazione nella creazione di animazioni apre nuove strade per la narrazione e i visual.
― 6 leggere min
Uno sguardo alle complessità dell'identificazione delle tracce audio miste.
― 6 leggere min
StyleSpeech migliora i sistemi TTS catturando le sfumature del linguaggio naturale.
― 6 leggere min
Cap2Sum utilizza didascalie video dense per migliorare l'efficienza e l'efficacia della sintesi video.
― 8 leggere min
MaVEn migliora la capacità dell'AI di elaborare più immagini per un ragionamento migliore.
― 6 leggere min
L'IA sta cambiando il modo in cui si compone e si vive la musica.
― 6 leggere min
Un nuovo metodo migliora il riconoscimento delle emozioni nelle conversazioni usando più fonti di dati.
― 6 leggere min
Presentiamo RMARN: un approccio innovativo per connettere testo e dati 3D.
― 6 leggere min
Un nuovo metodo trasforma il testo in scene 3D dettagliate senza problemi.
― 6 leggere min