Presentiamo MetaCLIP per una migliore raccolta di dati immagine-testo.
― 8 leggere min
Scienza all'avanguardia spiegata semplicemente
Presentiamo MetaCLIP per una migliore raccolta di dati immagine-testo.
― 8 leggere min
Model2Scene usa modelli CAD e linguaggio per migliorare l'apprendimento delle scene 3D.
― 5 leggere min
Un nuovo metodo migliora il monitoraggio e l'elaborazione nell'analisi video.
― 6 leggere min
Nuovo metodo riduce i token visivi per un allenamento più economico.
― 5 leggere min
Scopri i metodi per gestire in modo efficiente i dati multi-dimensionali usando il recupero dei tensori.
― 8 leggere min
Un nuovo metodo migliora il rilevamento degli oggetti integrando dati RGB e IR.
― 5 leggere min
Un nuovo set di dati migliora l'apprendimento automatico per rispondere con precisione a domande visive.
― 7 leggere min
Un nuovo framework migliora la precisione del rilevamento degli oggetti in ambienti reali.
― 6 leggere min
Questo articolo parla di un nuovo modo per migliorare la navigazione dei robot usando il riconoscimento dei luoghi.
― 6 leggere min
Questo articolo parla di come usare l'entropia per migliorare le prestazioni e l'interpretabilità delle reti neurali.
― 5 leggere min
Un nuovo dataset migliora l'apprendimento zero-shot per il riconoscimento delle azioni nei video.
― 7 leggere min
Scopri l'impatto delle reti di filtraggio dei dati sui dataset di machine learning e sulle prestazioni del modello.
― 7 leggere min
Un nuovo metodo migliora il rendering di scene dinamiche usando tecniche di warping in avanti.
― 6 leggere min
Geal migliora l'efficienza nella selezione dei dati nella visione computerizzata usando modelli generali.
― 7 leggere min
Nuovo dataset e modello migliorano l'identificazione degli oggetti da query complesse.
― 5 leggere min
APNet combina immagini aeree e nuvole di punti per un'analisi urbana migliore.
― 6 leggere min
Un nuovo sistema migliora il tracciamento degli oggetti in ambienti dinamici per robot e auto a guida autonoma.
― 6 leggere min
Questo studio esplora YOLOv5 per la rilevazione efficace del layout dei documenti e l'estrazione dei dati.
― 7 leggere min
Ricerca su come migliorare la stima della posa umana attraverso dataset diversi e il ridimensionamento dei modelli.
― 7 leggere min
Un confronto delle misure di qualità delle immagini nella generazione di immagini moderna.
― 5 leggere min
Questo articolo parla dell'integrazione dell'apprendimento auto-supervisionato e dei modelli basati sull'energia nel machine learning.
― 7 leggere min
Il nuovo modello GazeCLIP migliora la stima dello sguardo combinando dati visivi e intuizioni linguistiche.
― 7 leggere min
GD-NeRF affronta la sfocatura delle immagini nella sintesi di nuove viste.
― 5 leggere min
Un nuovo metodo migliora la segmentazione semantica senza bisogno di dati sorgente durante l'adattamento.
― 5 leggere min
Un nuovo modello di rete neurale migliora il riconoscimento del testo in diversi compiti e settori.
― 10 leggere min
Nuovo framework migliora le performance del modello con dati di qualità.
― 7 leggere min
Esplora come i Modelli di Diffusione migliorano la super-risoluzione in vari campi.
― 6 leggere min
Un nuovo metodo migliora la stima della profondità da immagini RGB singole per una migliore rilevazione di oggetti 3D.
― 8 leggere min
Nuove tecniche migliorano le prestazioni del modello usando pochi dati etichettati.
― 8 leggere min
Un nuovo metodo migliora la generazione di campioni positivi nell'apprendimento auto-supervisionato.
― 7 leggere min
Un nuovo framework migliora il ragionamento visivo usando modelli di linguaggio come controllori.
― 6 leggere min
Nuovo approccio migliora la capacità dei modelli generativi di creare immagini realistiche.
― 7 leggere min
Esaminando il ruolo del few-shot learning nei modelli fondazione multi-modali.
― 8 leggere min
Nuovo metodo migliora l'apprendimento di nuove classi con meno dati.
― 4 leggere min
Un nuovo dataset migliora il riconoscimento delle persone attraverso diverse angolazioni delle telecamere.
― 7 leggere min
Questa ricerca migliora la classificazione delle immagini usando descrizioni dettagliate generate da modelli linguistici.
― 6 leggere min
ProText migliora i modelli visione-linguaggio usando solo dati testuali per gestire meglio i compiti.
― 6 leggere min
Uno sguardo al framework MacCap e il suo impatto sulla didascalia delle immagini.
― 5 leggere min
Questo articolo parla di metodi per ridurre gli artefatti di rumore nei Vision Transformers per migliorare la qualità delle feature.
― 6 leggere min
Un nuovo framework ottimizza le Reti Neurali Tensoriali per una migliore efficienza e prestazioni.
― 6 leggere min