Informática - Multimedia

RSS

Visión por Computador y Reconocimiento de Patrones Creando un Metaverso Abierto para Todos

Un nuevo enfoque para construir espacios virtuales accesibles usando WebXR y A-Frame.

2025-06-22T18:26:06+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en la comprensión visual de documentos con SynthDoc

SynthDoc crea documentos sintéticos para el aprendizaje automático en la lectura de documentos.

2025-06-22T09:13:06+00:00 ― 7 minilectura

Multimedia Nuevo método para predecir emociones en videos

Este estudio presenta un modelo para analizar las reacciones emocionales al contenido de video.

2025-06-21T12:56:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Combinando voz y cara para un mejor reconocimiento de identidad

Este artículo habla sobre las ventajas de combinar sistemas de reconocimiento de voz y facial.

2025-06-21T08:24:30+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Simplificando la generación de imágenes RGBA con Alfie

Un nuevo método para crear imágenes RGBA de manera fácil y efectiva.

2025-06-21T06:45:12+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Canguro: Un Nuevo Enfoque para Entender Videos

Kangaroo mejora el análisis de video al integrar visuales, sonidos y texto de manera efectiva.

2025-06-20T14:33:30+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Un nuevo enfoque para la segmentación de imágenes

Este documento presenta un modelo de un solo codificador para mejorar la segmentación de imágenes basado en descripciones de texto.

2025-06-20T14:09:48+00:00 ― 8 minilectura

Sonido Avances en la tecnología de extracción de voz del hablante objetivo

Nuevos métodos mejoran la separación de voces en entornos ruidosos.

2025-06-20T13:47:05+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando la generación de subtítulos para imágenes con inferencia causal

Un nuevo marco mejora la precisión de los subtítulos de imágenes y reduce errores.

2025-06-20T09:09:36+00:00 ― 7 minilectura

Multimedia Avanzando Sistemas de Interacción Multimodal

Mejorando cómo las máquinas ayudan a los usuarios a través de mejor interacción y respuestas.

2025-06-19T23:48:42+00:00 ― 6 minilectura

Interacción Persona-Ordenador MetaDigiHumano: Una Nueva Forma de Conectar en el Metaverso

Explorando humanos digitales e interfaces hápticas para interacciones inmersivas.

2025-06-18T20:09:42+00:00 ― 6 minilectura

Procesado de imagen y vídeo Mejorando la Transmisión de Datos de Video a Través de Predicciones Inteligentes

Nuevos métodos mejoran la transmisión de video al predecir datos perdidos de manera efectiva.

2025-06-18T18:03:35+00:00 ― 6 minilectura

Sonido Generación de Música de Fondo Dinámica para Medios Interactivos

Un marco para ajustar la música en tiempo real en juegos y películas.

2025-06-18T10:46:20+00:00 ― 6 minilectura

Multimedia Avances en la codificación de videos de caras generativas

MRDAC mejora la calidad de video facial y la compresión usando múltiples fotogramas de referencia.

2025-06-18T07:23:24+00:00 ― 7 minilectura

Sonido Usando Sonidos Ultrasonidos para Medir Distancias en Interiores

Los investigadores exploran ecos ultrasónicos para medir distancias de manera precisa en entornos interiores tranquilos.

2025-06-18T04:17:40+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones El Papel de las Sombras en el Procesamiento de Imágenes

Explorando la detección, eliminación y generación de sombras en visión por computadora.

2025-06-17T23:21:30+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando la claridad de imagen en mal tiempo

Un nuevo método mejora la calidad de imagen en condiciones climáticas adversas usando modelos de lenguaje y de visión.

2025-06-17T23:05:42+00:00 ― 6 minilectura

Multimedia Un Nuevo Marco para la Privacidad en la Computación en la Nube Móvil

Este marco mejora la eficiencia de las apps multimedia mientras protege la privacidad del usuario.

2025-06-17T15:51:12+00:00 ― 9 minilectura

Computación y lenguaje LongLLaVA: Una Nueva Era en el Procesamiento de Imágenes

LongLLaVA mejora la comprensión de múltiples imágenes para varias aplicaciones.

2025-06-17T07:57:12+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones SegTalker: Avanzando en la Tecnología de Rostros Hablantes

SegTalker mejora los videos de caras que hablan con texturas realistas y edición sencilla.

2025-06-16T15:21:48+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones HiSC4D: Un Nuevo Enfoque para Captura de Movimiento

HiSC4D captura el movimiento humano usando sensores portátiles para un mejor análisis de interacción.

2025-06-16T02:27:36+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Avanzando en la respuesta a preguntas para eventos densos en video

Presentando un método para mejorar la respuesta a preguntas en videos con múltiples eventos.

2025-06-16T02:19:42+00:00 ― 7 minilectura

Sonido Avances en la diarización de hablantes de audio y video

Una visión general de métodos, desafíos y sistemas de diarización de altavoces audiovisuales.

2025-06-15T21:14:00+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en el rendimiento de los modelos de visión-lenguaje

Este trabajo mejora los modelos de visión-lenguaje a través de mejores estrategias de datos y técnicas innovadoras.

2025-06-15T18:02:00+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Avanzando en el Enraizamiento Visual con MMCA

Un nuevo método mejora la identificación de objetos en imágenes mediante una integración visual y textual personalizada.

2025-06-15T09:12:42+00:00 ― 6 minilectura

Multimedia Mejorando la clasificación de memes con SimCLIP

SimCLIP mejora el análisis de memes al combinar perfectamente texto e imágenes.

2025-06-15T01:42:24+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Identificando a la Persona Más Importante en Imágenes Sociales

El conjunto de datos MIP-GAF ayuda a analizar las dinámicas sociales en las imágenes.

2025-06-14T02:24:06+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando Modelos de Visión-Lenguaje con Alineación Composicional

Un nuevo enfoque afina la conexión entre imágenes y texto en los VLMs.

2025-06-13T05:12:12+00:00 ― 6 minilectura

Sonido Conectando el arte y la música a través de las emociones

La investigación relaciona pinturas con música al interpretar emociones.

2025-06-12T23:35:50+00:00 ― 7 minilectura

Multimedia Nuevo método para detectar emociones humanas

Un estudio revela una nueva forma de identificar emociones usando video, sonido y texto.

2025-06-12T23:24:36+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando el reconocimiento de voz con varios tipos de entrada

Este artículo explora cómo diferentes entradas pueden mejorar la precisión del reconocimiento de voz.

2025-06-12T15:30:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Transformando la educación musical con LLaQo

LLaQo ofrece retroalimentación detallada para la evaluación del rendimiento musical, mejorando el aprendizaje de los estudiantes.

2025-06-12T02:32:40+00:00 ― 6 minilectura

Redes y arquitectura de Internet Starlink y el futuro de la transmisión de video

Explorando cómo Starlink influye en la transmisión de video a nivel mundial.

2025-06-11T20:33:00+00:00 ― 6 minilectura

Sonido El Creciente Papel de la IA en la Creación Musical

La inteligencia artificial está reinventando la música con nuevas herramientas y enfoques.

2025-06-11T07:55:15+00:00 ― 7 minilectura

Redes y arquitectura de Internet Avances en el control de congestión para la transmisión de video

Mejorando la comunicación en tiempo real a través de nuevos métodos de control de congestión.

2025-06-11T02:22:48+00:00 ― 7 minilectura

Sonido Avances en la Generación de Video a Audio

Nuevos métodos mejoran la sincronización de audio con escenas de video cambiantes.

2025-06-10T20:35:05+00:00 ― 5 minilectura

Computación y lenguaje NVLM: Avanzando en la Comprensión de la IA Multimodal

NVLM mejora la comprensión del lenguaje y las imágenes por parte de la IA para diversas tareas.

2025-06-10T18:52:30+00:00 ― 6 minilectura

Computación y lenguaje El método de reducción de tokens mejora la eficiencia en MLLMs

El método TRIM reduce los tokens de imagen en modelos de lenguaje multimodal sin perder rendimiento.

2025-06-10T11:06:24+00:00 ― 6 minilectura

Computación y lenguaje El papel de los modelos de lenguaje grandes en el razonamiento cruzado-modal

Explorando cómo los LLMs mejoran el razonamiento en diferentes tipos de datos.

2025-06-10T08:52:06+00:00 ― 9 minilectura

Sonido PDMX: Un nuevo recurso para la investigación musical con IA

PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.

2025-06-10T08:26:20+00:00 ― 7 minilectura