Aprende sobre los desafíos y modelos en las tareas de preguntas y respuestas visuales.
Neelabh Sinha, Vinija Jain, Aman Chadha
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
Aprende sobre los desafíos y modelos en las tareas de preguntas y respuestas visuales.
Neelabh Sinha, Vinija Jain, Aman Chadha
― 6 minilectura
Un enfoque novedoso mejora el reconocimiento de formas 3D usando múltiples vistas.
Hongyu Sun, Yongcai Wang, Peng Wang
― 5 minilectura
PrimeDepth mejora la eficiencia de la estimación de profundidad usando modelos de texto a imagen sin datos de entrenamiento adicionales.
Denis Zavadski, Damjan Kalšan, Carsten Rother
― 7 minilectura
Nuevo método mejora la detección de objetos usando modelado de imágenes enmascaradas de forma interactiva.
Minh-Duc Vu, Zuheng Ming, Fangchen Feng
― 6 minilectura
Nuevo marco mejora la seguridad del reconocimiento facial contra ataques de suplantación.
Xinxu Ge, Xin Liu, Zitong Yu
― 7 minilectura
El modelo DICS mejora la clasificación de imágenes al centrarse en características clave.
Qiaowei Miao, Yawei Luo, Yi Yang
― 6 minilectura
GLCONet mejora la detección de objetos camuflados usando características locales y globales.
Yanguang Sun, Hanyu Xuan, Jian Yang
― 8 minilectura
Un nuevo método mejora la transferencia de características en representaciones neuronales implícitas para imágenes.
Kushal Vyas, Ahmed Imtiaz Humayun, Aniket Dashpute
― 7 minilectura
Un nuevo método mejora la claridad y el reconocimiento de imágenes en entornos ruidosos.
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 9 minilectura
Aprende cómo AMRF mejora la segmentación de imágenes en aplicaciones industriales.
Zheming Zuo, Joseph Smith, Jonathan Stonehouse
― 6 minilectura
Este método mejora la interpretabilidad en la segmentación semántica usando prototipos y representación a múltiples escalas.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 6 minilectura
MAC-VO mejora la estimación de la posición de la cámara en entornos complicados.
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 6 minilectura
Un estudio compara CNNs preentrenadas y modelos base para la recuperación de imágenes médicas.
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 8 minilectura
FKAN mejora la representación de imágenes y formas 3D usando funciones de activación aprendibles.
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 6 minilectura
Un nuevo método mejora la comprensión de las acciones humanas por parte de la IA a través de datos especializados.
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 8 minilectura
Este método estima orientaciones sin datos etiquetados usando aprendizaje profundo.
Shiqi Li, Jihua Zhu, Yifan Xie
― 6 minilectura
Este documento evalúa la capacidad de los VLMs para razonar sobre tamaños y distancias.
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 7 minilectura
Resumen de técnicas para detectar y clasificar acciones humanas.
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 6 minilectura
SparX mejora el procesamiento de imágenes imitando el sistema visual humano.
Meng Lou, Yunxiang Fu, Yizhou Yu
― 7 minilectura
La investigación muestra el potencial de los LLMs para reconocer objetos en visuales basados en eventos.
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 7 minilectura
Integrar información de movimiento mejora la precisión de detección de objetos en imágenes.
Cagri Gungor, Adriana Kovashka
― 7 minilectura
ScaleFlow++ mejora la estimación de movimiento 3D usando cámaras monoculares para varias aplicaciones.
Han Ling, Yinghui Sun, Quansen Sun
― 7 minilectura
NSSR-DIL transforma imágenes de baja calidad de manera eficiente sin necesidad de grandes conjuntos de datos.
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 6 minilectura
Un enfoque de aprendizaje automático que utiliza el movimiento para un aprendizaje visual de datos efectivo.
Simone Marullo, Matteo Tiezzi, Marco Gori
― 9 minilectura
Este marco permite aprender rápidamente nuevas categorías de objetos con pocos datos.
Yanan Jian, Fuxun Yu, Qi Zhang
― 7 minilectura
Un nuevo sistema mejora la velocidad y precisión del etiquetado de videos.
Alexandru Bobe, Jan C. van Gemert
― 7 minilectura
KAT mejora el aprendizaje profundo usando KANs avanzados para reemplazar MLPs.
Xingyi Yang, Xinchao Wang
― 7 minilectura
Un nuevo marco mejora la comprensión de las acciones humanas a través de datos de esqueletos.
Lehong Wu, Lilang Lin, Jiahang Zhang
― 7 minilectura
Un nuevo método mejora la capacidad de agarre de los robots usando comandos en lenguaje natural.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 7 minilectura
FOLK mejora el aprendizaje auto-supervisado mediante enmascaramiento de frecuencia adaptativo y un diseño de maestro-alumno.
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 6 minilectura
Adaptar DINOv2 mejora la segmentación BEV para autos autónomos más seguros.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 6 minilectura
Un nuevo conjunto de datos reúne información de cámaras RGB y de eventos para mejorar el análisis facial.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 10 minilectura
SteeredMarigold mejora los mapas de profundidad, ayudando a los robots en la navegación y la interacción.
Jakub Gregorek, Lazaros Nalpantidis
― 6 minilectura
Te presento GRIN, un nuevo modelo para la estimación de profundidad usando datos escasos.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 8 minilectura
NVLM mejora la comprensión del lenguaje y las imágenes por parte de la IA para diversas tareas.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 minilectura
Este trabajo mejora la precisión de CLIP al abordar la superposición intra-modal usando adaptadores ligeros.
Alexey Kravets, Vinay Namboodiri
― 6 minilectura
Un nuevo marco mejora la segmentación con ejemplos limitados.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 7 minilectura
SLAck ofrece un nuevo enfoque para rastrear objetos diversos en videos.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 8 minilectura
Se presenta un punto de referencia para segmentación generalizada de pocos disparos en teledetección.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 6 minilectura
Un nuevo método mejora la estimación de poses usando imágenes RGB informadas por datos de profundidad.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 7 minilectura