Cap2Sum utiliza subtítulos densos en videos para mejorar la eficiencia y efectividad de la resumición de videos.
Cairong Zhao, Chutian Wang, Zifan Song
― 9 minilectura
Ciencia de vanguardia explicada de forma sencilla
Cap2Sum utiliza subtítulos densos en videos para mejorar la eficiencia y efectividad de la resumición de videos.
Cairong Zhao, Chutian Wang, Zifan Song
― 9 minilectura
Últimos artículos
Chaoya Jiang, Jia Hongrui, Haiyang Xu
― 7 minilectura
Sangjun Han, Jiwon Ham, Chaeeun Lee
― 7 minilectura
Cam-Van Thi Nguyen, The-Son Le, Anh-Tuan Mai
― 6 minilectura
Wenrui Li, Wei Han, Yandu Chen
― 6 minilectura
Wenrui Li, Fucheng Cai, Yapeng Mi
― 7 minilectura
Un nuevo enfoque para construir espacios virtuales accesibles usando WebXR y A-Frame.
Giuseppe Macario
― 7 minilectura
SynthDoc crea documentos sintéticos para el aprendizaje automático en la lectura de documentos.
Chuanghao Ding, Xuejing Liu, Wei Tang
― 7 minilectura
Este estudio presenta un modelo para analizar las reacciones emocionales al contenido de video.
Mingwei Sun, Kunpeng Zhang
― 8 minilectura
Este artículo habla sobre las ventajas de combinar sistemas de reconocimiento de voz y facial.
Aref Farhadipour, Masoumeh Chapariniya, Teodora Vukovic
― 5 minilectura
Un nuevo método para crear imágenes RGBA de manera fácil y efectiva.
Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli
― 8 minilectura
Kangaroo mejora el análisis de video al integrar visuales, sonidos y texto de manera efectiva.
Jiajun Liu, Yibing Wang, Hanghang Ma
― 6 minilectura
Este documento presenta un modelo de un solo codificador para mejorar la segmentación de imágenes basado en descripciones de texto.
Seonghoon Yu, Ilchae Jung, Byeongju Han
― 8 minilectura
Nuevos métodos mejoran la separación de voces en entornos ruidosos.
Tathagata Bandyopadhyay
― 5 minilectura
Un nuevo marco mejora la precisión de los subtítulos de imágenes y reduce errores.
Qian Cao, Xu Chen, Ruihua Song
― 7 minilectura
Mejorando cómo las máquinas ayudan a los usuarios a través de mejor interacción y respuestas.
Dan Bohus, Sean Andrist, Yuwei Bao
― 6 minilectura
Explorando humanos digitales e interfaces hápticas para interacciones inmersivas.
Senthil Kumar Jagatheesaperumal, Praveen Sathikumar, Harikrishnan Rajan
― 6 minilectura
Nuevos métodos mejoran la transmisión de video al predecir datos perdidos de manera efectiva.
John Li, Shehab Sarar Ahmed, Deepak Nair
― 6 minilectura
Un marco para ajustar la música en tiempo real en juegos y películas.
Haoxuan Liu, Zihao Wang, Haorong Hong
― 6 minilectura
MRDAC mejora la calidad de video facial y la compresión usando múltiples fotogramas de referencia.
Goluck Konuko, Giuseppe Valenzise
― 7 minilectura
Los investigadores exploran ecos ultrasónicos para medir distancias de manera precisa en entornos interiores tranquilos.
Junpei Honma, Akisato Kimura, Go Irie
― 7 minilectura
Explorando la detección, eliminación y generación de sombras en visión por computadora.
Xiaowei Hu, Zhenghao Xing, Tianyu Wang
― 9 minilectura
Un nuevo método mejora la calidad de imagen en condiciones climáticas adversas usando modelos de lenguaje y de visión.
Jiaqi Xu, Mengyang Wu, Xiaowei Hu
― 6 minilectura
Este marco mejora la eficiencia de las apps multimedia mientras protege la privacidad del usuario.
Zhongze Tang, Mengmei Ye, Yao Liu
― 9 minilectura
LongLLaVA mejora la comprensión de múltiples imágenes para varias aplicaciones.
Xidong Wang, Dingjie Song, Shunian Chen
― 6 minilectura
SegTalker mejora los videos de caras que hablan con texturas realistas y edición sencilla.
Lingyu Xiong, Xize Cheng, Jintao Tan
― 6 minilectura
HiSC4D captura el movimiento humano usando sensores portátiles para un mejor análisis de interacción.
Yudi Dai, Zhiyong Wang, Xiping Lin
― 8 minilectura
Presentando un método para mejorar la respuesta a preguntas en videos con múltiples eventos.
Hangyu Qin, Junbin Xiao, Angela Yao
― 7 minilectura
Una visión general de métodos, desafíos y sistemas de diarización de altavoces audiovisuales.
Victoria Mingote, Alfonso Ortega, Antonio Miguel
― 6 minilectura
Este trabajo mejora los modelos de visión-lenguaje a través de mejores estrategias de datos y técnicas innovadoras.
Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang
― 8 minilectura
Un nuevo método mejora la identificación de objetos en imágenes mediante una integración visual y textual personalizada.
Ruilin Yao, Shengwu Xiong, Yichen Zhao
― 6 minilectura
SimCLIP mejora el análisis de memes al combinar perfectamente texto e imágenes.
Javier Huertas-Tato, Christos Koutlis, Symeon Papadopoulos
― 7 minilectura
El conjunto de datos MIP-GAF ayuda a analizar las dinámicas sociales en las imágenes.
Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha
― 7 minilectura
Un nuevo enfoque afina la conexión entre imágenes y texto en los VLMs.
Ali Abdollah, Amirmohammad Izadi, Armin Saghafian
― 6 minilectura
La investigación relaciona pinturas con música al interpretar emociones.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 7 minilectura
Un estudio revela una nueva forma de identificar emociones usando video, sonido y texto.
Jiehui Jia, Huan Zhang, Jinhua Liang
― 6 minilectura
Este artículo explora cómo diferentes entradas pueden mejorar la precisión del reconocimiento de voz.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 6 minilectura
LLaQo ofrece retroalimentación detallada para la evaluación del rendimiento musical, mejorando el aprendizaje de los estudiantes.
Huan Zhang, Vincent Cheung, Hayato Nishioka
― 6 minilectura
Explorando cómo Starlink influye en la transmisión de video a nivel mundial.
Liz Izhikevich, Reese Enghardt, Te-Yuan Huang
― 6 minilectura
La inteligencia artificial está reinventando la música con nuevas herramientas y enfoques.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 7 minilectura
Mejorando la comunicación en tiempo real a través de nuevos métodos de control de congestión.
Songyang Zhang, Changpeng Yang
― 7 minilectura
Nuevos métodos mejoran la sincronización de audio con escenas de video cambiantes.
Mingjing Yi, Ming Li
― 5 minilectura
NVLM mejora la comprensión del lenguaje y las imágenes por parte de la IA para diversas tareas.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 minilectura
El método TRIM reduce los tokens de imagen en modelos de lenguaje multimodal sin perder rendimiento.
Dingjie Song, Wenjun Wang, Shunian Chen
― 6 minilectura
Explorando cómo los LLMs mejoran el razonamiento en diferentes tipos de datos.
Shengsheng Qian, Zuyi Zhou, Dizhan Xue
― 9 minilectura
PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 7 minilectura