Questo articolo esplora i pregiudizi di genere e razziali nei grandi modelli di linguaggio visivo.
― 10 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo articolo esplora i pregiudizi di genere e razziali nei grandi modelli di linguaggio visivo.
― 10 leggere min
Un nuovo framework migliora il modo in cui misuriamo la gravità nelle immagini a raggi X.
― 8 leggere min
Il flashback affronta l'oblio nel Federated Learning per migliorare l'addestramento del modello e le prestazioni.
― 5 leggere min
Esplorando l'impatto dei modelli di coerenza sui risolutori inversi di diffusione.
― 7 leggere min
Questo articolo presenta un modo efficiente per elaborare video lunghi usando la consolidazione della memoria.
― 8 leggere min
Un nuovo metodo rivela come i modelli linguistici elaborano le informazioni in modo più chiaro.
― 7 leggere min
Indagare su come l'augmentazione delle etichette influisce sull'apprendimento nei modelli di machine learning.
― 8 leggere min
Mappare e monitorare i ponteggi per migliorare la vita urbana a NYC.
― 8 leggere min
Nuovo framework migliora la rilevazione precoce delle infezioni parassitarie con dati limitati.
― 5 leggere min
ControlUDA migliora la capacità dell'IA di segmentare le immagini in condizioni meteorologiche avverse.
― 7 leggere min
Un nuovo modello migliora la classificazione dei segnali radar da terra e mare.
― 5 leggere min
I progressi nell'IA si concentrano sulla valutazione dell'incertezza nella rilevazione di oggetti da parte dei robot.
― 5 leggere min
Questo articolo parla dei problemi legati ai dataset di imaging medico sulle piattaforme pubbliche.
― 8 leggere min
Esplorando l'impatto e le sfide di Gemini nel campo medico.
― 5 leggere min
Nuovo approccio combina in modo efficace denoising e segmentazione per un'analisi delle immagini migliore.
― 8 leggere min
Le backdoor architettoniche presentano seri rischi per la sicurezza nelle reti neurali, spesso restando non rilevate.
― 4 leggere min
Uno sguardo a come i MLLM gestiscono i piccoli dettagli nelle immagini.
― 6 leggere min
Un nuovo metodo migliora l'identificazione di oggetti 3D a partire da immagini singole in scenari del mondo reale.
― 6 leggere min
Un metodo nuovo per valutare come i modelli rispondono a domande relative alle immagini.
― 5 leggere min
I robot possono imparare abilità di manipolazione attraverso metodi di apprendimento basati su video.
― 7 leggere min
Questo documento presenta un framework per convalidare i metodi di deep learning nell'analisi delle immagini mediche.
― 6 leggere min
Un nuovo benchmark valuta i modelli linguistici di grande dimensione a multi-modalità in compiti di visione a basso livello.
― 7 leggere min
Un nuovo metodo migliora la creazione di mappe per le auto a guida autonoma.
― 6 leggere min
OIFTrack migliora la precisione del tracciamento gestendo il flusso di informazioni tra i token target e quelli di sfondo.
― 7 leggere min
Esplorando metodi per migliorare le performance dei robot in ambienti imprevedibili.
― 5 leggere min
Un nuovo metodo migliora la comprensione delle macchine per diversi tipi di dati.
― 6 leggere min
Un nuovo metodo migliora le previsioni con dati mancanti nella scienza ambientale.
― 6 leggere min
Nuovi set di dati rivelano difficoltà nell'identificare i corridori e il testo in condizioni fangose.
― 6 leggere min
Esplorando spunti chiave per migliorare i VLM e le loro applicazioni.
― 6 leggere min
Intra-Fusion unisce i neuroni, rendendo le reti neurali più piccole e più efficienti.
― 6 leggere min
CaveSeg migliora la navigazione dei robot e la mappatura delle grotte sottomarine.
― 5 leggere min
Un nuovo dataset punta a migliorare il riconoscimento degli articoli della spesa attraverso dati 3D dettagliati.
― 8 leggere min
Esaminando il legame tra tecniche di visione 3D e metodi pratici di stampa 3D.
― 5 leggere min
Usare immagini per chiarire le domande degli utenti migliora i risultati di ricerca e l'esperienza utente.
― 7 leggere min
AV-SUPERB valuta modelli audio e visivi su vari task per migliorare le prestazioni.
― 6 leggere min
Un nuovo metodo per analizzare le forme dell'LAA potrebbe migliorare la valutazione del rischio di ictus nei pazienti.
― 6 leggere min
Un nuovo metodo migliora il riconoscimento delle persone usando dati debolmente etichettati.
― 6 leggere min
Lumos aiuta gli utenti a riconoscere il testo dalle immagini e a rispondere alle domande in tempo reale.
― 5 leggere min
BEFUnet migliora l'accuratezza nella segmentazione delle immagini mediche combinando CNN e transformer.
― 8 leggere min
Un nuovo approccio migliora la creazione di modelli 3D a partire da descrizioni testuali.
― 6 leggere min