Un nouveau codec audio offrant une compression de haute qualité et un contenu sémantique riche.
― 8 min lire
La science de pointe expliquée simplement
Un nouveau codec audio offrant une compression de haute qualité et un contenu sémantique riche.
― 8 min lire
Derniers articles
Nouvelles techniques améliorent la qualité et l'entraînement pour les images 3D.
― 9 min lire
NuNet utilise des données RGB et de profondeur pour de meilleures estimations nutritionnelles.
― 8 min lire
Une nouvelle méthode améliore l'alignement audio-vidéo en utilisant des modèles pré-entraînés.
― 8 min lire
Une nouvelle méthode pour améliorer les mécanismes d'attention dans le traitement de données complexes.
― 9 min lire
Explorer comment l'IA améliore le streaming vidéo tout en promouvant l'efficacité énergétique.
― 8 min lire
Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.
― 8 min lire
Gear-NeRF améliore le rendu de scènes 3D dynamiques en utilisant des techniques sensibles au mouvement.
― 9 min lire
Nouvelles méthodes renforcent les filigranes contre les menaces de retouche d'images modernes.
― 10 min lire
Un nouveau système combine des données et des infos pour mieux gérer le risque de chaleur.
― 7 min lire
Une nouvelle méthode pour créer de la musique qui colle bien au contenu vidéo.
― 10 min lire
Une étude récente reproduit des résultats clés sur l'interprétation des données en utilisant le son et les visuels.
― 8 min lire
Un nouveau modèle génère de la musique en utilisant à la fois des infos textuelles et visuelles.
― 9 min lire
Combiner la génération d'images et la recherche pour un meilleur accès à l'information visuelle.
― 9 min lire
Un coup d'œil sur les nouvelles méthodes pour comprendre les discours qui se chevauchent pendant les conversations.
― 9 min lire
Une nouvelle méthode pour détecter efficacement les news hors contexte.
― 5 min lire
PianoMotion10M fournit des mouvements de mains détaillés pour aider les apprentis pianistes.
― 7 min lire
Explorer comment les mesures de QoE améliorent la satisfaction des services multimédias.
― 11 min lire
Cette étude examine les méthodes audio pour suivre les mouvements des piétons dans les zones urbaines.
― 9 min lire
Un nouveau jeu de données améliore la création de sons foley pour le contenu multimédia.
― 8 min lire
Un projet mélange danse et technologie pour s'exprimer de manière créative.
― 8 min lire
Une nouvelle méthode améliore l'analyse vidéo de la coloscopie pour la détection des polypes.
― 9 min lire
Une méthode pour améliorer l'identification des fausses nouvelles en utilisant les interactions sur les réseaux sociaux.
― 9 min lire
VCEval propose un moyen automatisé d'évaluer l'efficacité des cours en ligne.
― 6 min lire
Une approche multimodale améliore la façon dont les moments clés sont identifiés dans les streams en direct.
― 7 min lire
Ce document présente un système pour créer des visuels qui réagissent à la musique.
― 9 min lire
Une nouvelle méthode améliore la récupération d'images et de textes dans plusieurs langues.
― 8 min lire
Découvre comment les modèles de diffusion changent le montage vidéo grâce à la technologie AI.
― 6 min lire
Des recherches montrent que l'incohérence entre le texte et l'image augmente avec la popularité des posts sur les réseaux sociaux.
― 5 min lire
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Un nouvel outil pour tester les modèles de langue dans des environnements bruyants.
― 5 min lire
Une nouvelle méthode pour créer des maillages de référence plus propres à partir de formes 3D dynamiques.
― 7 min lire
Une nouvelle méthode réduit le besoin de données étiquetées dans les tâches de vision par ordinateur.
― 7 min lire
Cet article présente une méthode pour générer un son précis à partir de vidéos et de texte.
― 9 min lire
Présentation d'un nouveau modèle qui combine efficacement le texte et la mise en page pour une meilleure compréhension des documents.
― 6 min lire
Une nouvelle méthode améliore la gestion des données vidéo pour une meilleure compréhension et efficacité.
― 7 min lire
Le dataset AMEX améliore la compréhension de l'IA sur les interfaces d'applications mobiles.
― 9 min lire
Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.
― 7 min lire
Explorer comment les jeux vidéo peuvent enseigner des compétences en programmation essentielles de manière efficace et engageante.
― 7 min lire
Combiner son et images pour des systèmes de reconnaissance plus intelligents.
― 8 min lire
VCoME aide les utilisateurs à créer des vidéos verbales captivantes facilement.
― 5 min lire