Un nuevo método mejora la detección de tartamudeo combinando datos de audio, video y texto.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo método mejora la detección de tartamudeo combinando datos de audio, video y texto.
― 7 minilectura
Un estudio sobre cómo mejorar la localización de fuentes de sonido aprovechando mejor la información auditiva y visual.
― 9 minilectura
TemporalStory mejora la generación de imágenes para contar historias al aumentar la coherencia y el contexto.
― 6 minilectura
Una nueva herramienta para evaluar la replicación en la música hecha por IA.
― 9 minilectura
Una mirada a los métodos para mejorar la calidad de imagen afectada por la neblina.
― 8 minilectura
El conjunto de datos TGIF ayuda a detectar técnicas avanzadas de manipulación de imágenes.
― 6 minilectura
Descubre cómo la transmisión IP y el etiquetado de audio están transformando la entrega de contenido.
― 7 minilectura
Integrando IA para mejorar estrategias de marketing y la efectividad de las campañas.
― 7 minilectura
X-Former mejora cómo los modelos combinan la comprensión de imágenes y texto.
― 10 minilectura
Combatiendo la información engañosa con nuevos métodos y tecnologías.
― 6 minilectura
Un nuevo sistema que combina análisis de texto e imagen para combatir la desinformación.
― 6 minilectura
El nuevo método RoE mejora la eficiencia de los modelos de lenguaje grandes multimodales con enrutamiento dinámico.
― 9 minilectura
Presentamos 360VFI para mejorar la calidad y la experiencia del video en 360 grados.
― 6 minilectura
Un nuevo modelo combina audio y video para una mejor comprensión.
― 6 minilectura
Un nuevo método mejora la separación de voces en entornos ruidosos con múltiples hablantes.
― 6 minilectura
Este estudio revisa métodos de muestreo de fotogramas para mejorar la recuperación de contenido de video.
― 7 minilectura
Un nuevo marco simplifica la creación de clips destacados específicos de jugadores a partir de videos de fútbol.
― 8 minilectura
HaloQuest aborda problemas de alucinación en modelos de lenguaje-visual con un nuevo conjunto de datos.
― 12 minilectura
Un nuevo marco mejora la recuperación de objetos 3D a partir de diferentes tipos de datos.
― 6 minilectura
Examinando el proceso creativo detrás de la producción de videos de noticias falsas.
― 7 minilectura
QPT V2 mejora la puntuación visual usando modelado de imágenes enmascaradas y datos de alta calidad.
― 7 minilectura
MMTrail combina descripciones visuales y de audio para mejorar los modelos de video-lenguaje.
― 5 minilectura
Nuevo método refuerza la privacidad para imágenes y textos compartidos.
― 7 minilectura
Un nuevo método mejora el rendimiento de AVQA cuando faltan entradas de audio o visuales.
― 5 minilectura
Un método para crear audio que coincida con videos en primera persona.
― 9 minilectura
Una colección diversa de modelos 3D para mejorar las oportunidades de investigación.
― 7 minilectura
Este estudio analiza qué tan bien entienden y generan música los LLMs.
― 6 minilectura
Un nuevo modelo que sincroniza las anotaciones de acordes con el audio de la música de manera fluida.
― 7 minilectura
Un modelo unificado mejora la compresión de nubes de puntos para mayor calidad y eficiencia.
― 8 minilectura
Método innovador añade mensajes ocultos para asegurar la autenticidad de las imágenes.
― 7 minilectura
Un marco que identifica de manera efectiva contenido deepfake a través de un análisis combinado de audio y visual.
― 6 minilectura
Un nuevo estándar para evaluar modelos que analizan música y lenguaje.
― 7 minilectura
Un nuevo enfoque combina audio, video y datos de texto para un diagnóstico efectivo de la depresión.
― 9 minilectura
Un nuevo marco mejora la clasificación en tareas audiovisuales no vistas.
― 7 minilectura
Un nuevo modelo mejora la segmentación de siluetas usando señales de RF para una mejor captura de movimiento.
― 6 minilectura
Nuevo conjunto de datos ofrece información sobre el discurso de odio en diferentes idiomas y formatos.
― 7 minilectura
Nuevo marco mejora el procesamiento de imágenes en modelos de lenguaje grandes multimodales.
― 5 minilectura
AxiomVision ofrece un nuevo enfoque para el análisis de video, mejorando el rendimiento en condiciones cambiantes.
― 7 minilectura
Nuevos sistemas combinan audio y video para mejorar la detección de violencia en espacios públicos.
― 6 minilectura
Un nuevo sistema mejora las videollamadas en cascos de VR económicos usando comandos de voz.
― 7 minilectura