SegTalker mejora los videos de caras que hablan con texturas realistas y edición sencilla.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
SegTalker mejora los videos de caras que hablan con texturas realistas y edición sencilla.
― 6 minilectura
HiSC4D captura el movimiento humano usando sensores portátiles para un mejor análisis de interacción.
― 8 minilectura
Presentando un método para mejorar la respuesta a preguntas en videos con múltiples eventos.
― 7 minilectura
Una visión general de métodos, desafíos y sistemas de diarización de altavoces audiovisuales.
― 6 minilectura
Este trabajo mejora los modelos de visión-lenguaje a través de mejores estrategias de datos y técnicas innovadoras.
― 8 minilectura
Un nuevo método mejora la identificación de objetos en imágenes mediante una integración visual y textual personalizada.
― 6 minilectura
SimCLIP mejora el análisis de memes al combinar perfectamente texto e imágenes.
― 7 minilectura
El conjunto de datos MIP-GAF ayuda a analizar las dinámicas sociales en las imágenes.
― 7 minilectura
Un nuevo enfoque afina la conexión entre imágenes y texto en los VLMs.
― 6 minilectura
La investigación relaciona pinturas con música al interpretar emociones.
― 7 minilectura
Un estudio revela una nueva forma de identificar emociones usando video, sonido y texto.
― 6 minilectura
Este artículo explora cómo diferentes entradas pueden mejorar la precisión del reconocimiento de voz.
― 6 minilectura
LLaQo ofrece retroalimentación detallada para la evaluación del rendimiento musical, mejorando el aprendizaje de los estudiantes.
― 6 minilectura
Explorando cómo Starlink influye en la transmisión de video a nivel mundial.
― 6 minilectura
La inteligencia artificial está reinventando la música con nuevas herramientas y enfoques.
― 7 minilectura
Mejorando la comunicación en tiempo real a través de nuevos métodos de control de congestión.
― 7 minilectura
Nuevos métodos mejoran la sincronización de audio con escenas de video cambiantes.
― 5 minilectura
NVLM mejora la comprensión del lenguaje y las imágenes por parte de la IA para diversas tareas.
― 6 minilectura
El método TRIM reduce los tokens de imagen en modelos de lenguaje multimodal sin perder rendimiento.
― 6 minilectura
Explorando cómo los LLMs mejoran el razonamiento en diferentes tipos de datos.
― 9 minilectura
PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
― 7 minilectura
MoRAG mejora la generación de movimiento humano a partir de descripciones de texto utilizando recuperación específica por parte.
― 5 minilectura
Un nuevo conjunto de datos busca mejorar el razonamiento multimodal en los modelos de lenguaje.
― 8 minilectura
Métodos mejorados para la detección de bordes mejoran el modelado CAD a partir de escaneos 3D.
― 8 minilectura
Un nuevo enfoque mejora la respuesta a preguntas de video a través del reconocimiento de texto en escenas.
― 8 minilectura
Llama-AVSR combina entradas de audio y visuales para mejorar la precisión del reconocimiento de voz.
― 7 minilectura
Un nuevo sistema para crear movimientos de cámara de baile sincronizados con la música.
― 6 minilectura
Los equipos compiten para mejorar los métodos de predicción de la atención en videos.
― 6 minilectura
Un nuevo método que combina modelos para mejorar la adaptación de dominio no supervisada en tareas de segmentación.
― 7 minilectura
Un nuevo modelo crea audio que coincide con el video, mejorando las experiencias mediáticas.
― 5 minilectura
Un nuevo marco mejora la calidad de los conjuntos de datos de video-lenguaje a través de un refinamiento iterativo.
― 6 minilectura
Este marco mejora las animaciones en tiempo real al sincronizar el habla y los gestos de manera fluida.
― 5 minilectura
Descubre cómo la retroalimentación háptica mejora las experiencias virtuales en varias industrias.
― 5 minilectura
La investigación combina IA y dispositivos portátiles para predecir la agitación en pacientes con demencia.
― 7 minilectura
Una nueva estrategia combina el entrenamiento generativo y discriminativo en Modelos de Visión-Lenguaje.
― 5 minilectura
Este artículo habla sobre cómo medir la satisfacción del espectador en la transmisión de video en vivo.
― 9 minilectura
Un nuevo método simplifica la creación de audio y video para una mejor sincronización.
― 7 minilectura
PiVOT mejora el seguimiento de objetos usando indicaciones visuales y CLIP para mayor precisión.
― 6 minilectura
Nuevos métodos mejoran la transmisión de videos al equilibrar calidad y rendimiento.
― 5 minilectura
Presentamos un nuevo modelo y benchmark para evaluar tareas de audio múltiple.
― 7 minilectura