Un nuovo benchmark mira a valutare gli MLLM nella comprensione dei video su più argomenti.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo benchmark mira a valutare gli MLLM nella comprensione dei video su più argomenti.
― 7 leggere min
Un nuovo modello genera effetti di font unici per più lingue.
― 5 leggere min
Un nuovo set di dati migliora la valutazione della qualità delle immagini nella microscopia.
― 8 leggere min
ConSoR migliora la comprensione delle connessioni sociali attraverso l'analisi del contesto visivo.
― 7 leggere min
Un nuovo approccio migliora la robustezza dei Vision Transformers contro attacchi avversari.
― 5 leggere min
Un nuovo modello migliora l'accuratezza della stima della profondità usando tecniche di apprendimento auto-supervisionato.
― 7 leggere min
hGCA automatizza la creazione di scene 3D realistiche usando dati LiDAR sparsi.
― 6 leggere min
Nuovi metodi migliorano i dataset di immagini garantendo privacy e prestazioni.
― 6 leggere min
La ricerca si concentra sul miglioramento dell'efficienza nei modelli di comprensione dei documenti.
― 8 leggere min
Un nuovo benchmark testa il ragionamento composizionale nei modelli avanzati.
― 7 leggere min
CFG++ migliora la generazione e modifica delle immagini, offrendo una migliore corrispondenza con i suggerimenti testuali.
― 6 leggere min
ABTrack migliora la velocità e l'efficienza del tracciamento visivo su vari dispositivi.
― 6 leggere min
Un benchmark creato per migliorare la comprensione di contenuti video lunghi.
― 7 leggere min
Utilizzando immagini satellitari e deep learning per migliorare la mappatura delle baraccopoli e le condizioni di vita.
― 7 leggere min
Un nuovo dataset migliora la creazione di audio foley per contenuti multimediali.
― 6 leggere min
Nuovo metodo migliora la selezione delle bande per l'imaging iperspettrale senza bisogno di riaddestramento.
― 5 leggere min
Un nuovo metodo migliora l'accuratezza dei modelli di machine learning su dati non visti.
― 6 leggere min
Un dataset completo per il riconoscimento e la ricerca di testo arabo scritto a mano.
― 7 leggere min
ImageNet3D migliora la comprensione delle macchine sugli oggetti 3D nelle immagini.
― 6 leggere min
Una nuova rete neurale migliora il riconoscimento dei colori per una migliore classificazione delle immagini.
― 5 leggere min
Nuovo dataset migliora le abilità di presa dei robot usando comandi in linguaggio naturale.
― 6 leggere min
SeMOPO migliora l'apprendimento da dati di bassa qualità separando le informazioni utili dal rumore.
― 5 leggere min
Esplorare le minacce alla privacy nell'elaborazione delle immagini usando modelli di diffusione e gradienti trapelati.
― 8 leggere min
Un nuovo modello migliora la comprensione dei video unendo codificatori di immagini e video.
― 8 leggere min
Una nuova prospettiva per migliorare la creazione di immagini attraverso il campionamento della distillazione dei punteggi.
― 7 leggere min
Un passaggio da patch a pixel nella visione computerizzata sta cambiando l'analisi delle immagini.
― 6 leggere min
Personalizzare i modelli generativi per riflettere identità uniche attraverso lo spazio dei pesi.
― 7 leggere min
Questo studio presenta un nuovo metodo per identificare le immagini chiave di addestramento nei visual generati dall'IA.
― 8 leggere min
Questo articolo esamina come i Modelli di Spazio degli Stati Visivi affrontano le sfide visive.
― 7 leggere min
Un nuovo framework migliora il ragionamento nei modelli linguistici tramite schizzi visivi.
― 4 leggere min
MMScan migliora la capacità dell'AI di comprendere ambienti 3D complessi con annotazioni dettagliate.
― 7 leggere min
Un nuovo metodo aiuta l'IA a conversare in modo personale su argomenti specifici.
― 5 leggere min
I ricercatori vogliono migliorare la comprensione delle attività quotidiane da parte delle macchine attraverso l'analisi dei video.
― 6 leggere min
SimGen migliora l'addestramento delle auto a guida autonoma con dati sintetici realistici.
― 7 leggere min
Esplorando il ruolo dei VLGFM nella analisi dei dati geospaziali.
― 6 leggere min
Un nuovo metodo crea rapidamente modelli 3D dettagliati di teste a partire da immagini 2D.
― 7 leggere min
Nuovo metodo migliora la precisione nella stima della profondità usando immagini singole.
― 7 leggere min
Un nuovo framework migliora la comprensione dei video e i metodi di valutazione.
― 5 leggere min
Un nuovo metodo migliora l'adattabilità dei modelli tra i vari settori usando l'apprendimento tramite prompt e l'allineamento dei gradienti.
― 6 leggere min
Un metodo per identificare attacchi ai sistemi combinando immagini e testo.
― 6 leggere min