Exploration de la détection, suppression et génération d'ombres en vision par ordinateur.
― 10 min lire
La science de pointe expliquée simplement
Exploration de la détection, suppression et génération d'ombres en vision par ordinateur.
― 10 min lire
Une nouvelle méthode améliore la qualité des images pendant les mauvaises conditions météo grâce à des modèles de langage et de vision.
― 7 min lire
Ce cadre améliore l'efficacité des applis multimédia tout en protégeant la vie privée des utilisateurs.
― 9 min lire
LongLLaVA améliore la compréhension de plusieurs images pour différentes applis.
― 6 min lire
SegTalker améliore les vidéos de visages parlant avec des textures réalistes et un montage simple.
― 6 min lire
HiSC4D capture le mouvement humain avec des capteurs portables pour une meilleure analyse des interactions.
― 9 min lire
Présentation d'une méthode pour améliorer le question-réponse dans les vidéos avec plusieurs événements.
― 8 min lire
Un aperçu des méthodes de diarisation de locuteurs audio-visuels, des défis et des systèmes.
― 6 min lire
Ce travail améliore les modèles vision-langage grâce à des stratégies de données améliorées et des techniques innovantes.
― 9 min lire
Une nouvelle méthode améliore l'identification des objets dans les images grâce à une intégration visuelle et textuelle sur mesure.
― 7 min lire
SimCLIP améliore l'analyse des memes en combinant efficacement texte et images.
― 8 min lire
Le dataset MIP-GAF aide à analyser les dynamiques sociales dans les images.
― 7 min lire
Une nouvelle approche affine la connexion entre les images et le texte dans les VLMs.
― 7 min lire
La recherche associe des peintures à de la musique en interprétant les émotions.
― 8 min lire
Une étude révèle une nouvelle méthode pour identifier les émotions en utilisant des vidéos, des sons et du texte.
― 6 min lire
Cet article examine comment des entrées variées peuvent améliorer la précision de la reconnaissance vocale.
― 6 min lire
LLaQo propose des retours super détaillés pour évaluer les performances musicales, ce qui booste l'apprentissage des élèves.
― 6 min lire
Explorer comment Starlink influence le streaming vidéo à l'échelle mondiale.
― 6 min lire
L'intelligence artificielle est en train de transformer la musique avec de nouveaux outils et des approches.
― 8 min lire
Améliorer la communication en temps réel grâce à de nouvelles méthodes de contrôle de la congestion.
― 8 min lire
De nouvelles méthodes améliorent la synchronisation audio avec les scènes vidéo qui changent.
― 5 min lire
NVLM améliore la compréhension du langage et des visuels par l'IA pour des tâches variées.
― 7 min lire
La méthode TRIM réduit les tokens d'image dans les modèles de langage multimodaux tout en maintenant la performance.
― 6 min lire
Explorer comment les LLMs améliorent le raisonnement à travers différents types de données.
― 10 min lire
PDMX propose une énorme collection de musique symbolique dans le domaine public pour le développement de l'IA.
― 8 min lire
MoRAG améliore la génération de mouvements humains à partir de descriptions textuelles en utilisant une récupération spécifique aux parties.
― 6 min lire
Un nouvel ensemble de données vise à améliorer le raisonnement multimodal dans les modèles de langage.
― 8 min lire
Des méthodes améliorées pour la détection des contours boostent la modélisation CAO à partir de scans 3D.
― 9 min lire
Une nouvelle méthode améliore la réponse aux questions vidéo grâce à la reconnaissance de texte dans les scènes.
― 9 min lire
Llama-AVSR combine l'audio et les visuels pour améliorer la précision de la reconnaissance vocale.
― 8 min lire
Un nouveau système pour créer des mouvements de caméra de danse synchronisés avec la musique.
― 6 min lire
Des équipes s'affrontent pour améliorer les méthodes de prédiction de l'attention sur les vidéos.
― 7 min lire
Une nouvelle méthode qui combine des modèles pour améliorer l'adaptation de domaine non supervisée dans les tâches de segmentation.
― 7 min lire
Un nouveau modèle crée de l'audio qui correspond à la vidéo, améliorant les expériences médiales.
― 6 min lire
Un nouveau cadre améliore la qualité des ensembles de données vidéo-langue grâce à un affinage itératif.
― 7 min lire
Ce cadre améliore les animations en temps réel en synchronisant la parole et les gestes sans problème.
― 6 min lire
Découvrez comment le retour haptique améliore les expériences virtuelles dans plusieurs secteurs.
― 5 min lire
La recherche combine l'IA et les objets connectés pour prédire l'agitation chez les patients atteints de démence.
― 7 min lire
Une nouvelle stratégie combine l'entraînement génératif et discriminatif dans les modèles Vision-Language.
― 6 min lire
Cet article parle de la mesure de la satisfaction des spectateurs dans le streaming vidéo en direct.
― 10 min lire