Une méthode innovante ajoute des messages cachés pour garantir l'authenticité des images.
― 7 min lire
La science de pointe expliquée simplement
Une méthode innovante ajoute des messages cachés pour garantir l'authenticité des images.
― 7 min lire
Un cadre qui identifie efficacement le contenu deepfake grâce à une analyse combinée de l'audio et de la vidéo.
― 7 min lire
Un nouveau critère pour évaluer les modèles qui analysent la musique et le langage.
― 8 min lire
Une nouvelle approche combine des données audio, vidéo et texte pour un diagnostic efficace de la dépression.
― 10 min lire
Un nouveau cadre améliore la classification dans des tâches audio-visuelles jamais vues.
― 8 min lire
Un nouveau modèle améliore la segmentation des silhouettes en utilisant des signaux RF pour un meilleur mouvement.
― 7 min lire
Nouveau jeu de données offre des infos sur les discours de haine dans différentes langues et formats.
― 8 min lire
Un nouveau cadre améliore le traitement d'image dans les grands modèles de langage multimodaux.
― 5 min lire
AxiomVision propose une nouvelle façon d'analyser les vidéos, améliorant les performances dans des conditions changeantes.
― 8 min lire
De nouveaux systèmes combinent audio et vidéo pour une meilleure détection de la violence dans les espaces publics.
― 7 min lire
Un nouveau système améliore les appels vidéo sur des casques VR pas chers en utilisant la saisie vocale.
― 8 min lire
Un guide clair sur les types de manuscrits et les défis de soumission.
― 6 min lire
Une nouvelle méthode améliore la reconnaissance d'objets dans les vidéos grâce à des sons et des indices visuels.
― 7 min lire
Un aperçu des stratégies pour gérer les données à longue traîne en apprentissage machine.
― 9 min lire
Une nouvelle méthode améliore la détection des valeurs aberrantes dans les ensembles de données multi-vues avec des vues manquantes.
― 8 min lire
Une étude sur les défis et solutions pour les hallucinations dans les MLLMs.
― 5 min lire
Un cadre pour s'attaquer au bruit de données dans les techniques de récupération croisée.
― 6 min lire
Un nouveau jeu de données permet d'améliorer les outils pour détecter la fraude aux documents d'identité.
― 11 min lire
MMPKUBase propose plus de 52 000 sujets chinois avec plein d'images.
― 6 min lire
TEAdapter améliore la génération de musique à partir de texte, offrant aux utilisateurs plus de contrôle et de créativité.
― 6 min lire
Un nouveau jeu de données et une méthode améliorent le grounding vidéo pour des récits complexes.
― 10 min lire
Une nouvelle méthode améliore la détection des deepfakes faciaux.
― 7 min lire
Lighthouse simplifie la recherche de moments vidéo et la détection de moments clés pour les chercheurs.
― 7 min lire
Un nouveau modèle d'apprentissage automatique améliore les techniques de séparation des sources audio.
― 7 min lire
Un système pour améliorer la clarté de la parole dans les environnements bruyants en utilisant des lunettes intelligentes.
― 6 min lire
COM Kitchens propose des vidéos de cuisine non montées pour étudier les processus de préparation des aliments.
― 7 min lire
ReSyncer améliore la qualité vidéo et la flexibilité des mouvements des lèvres synchronisés avec l'audio.
― 6 min lire
Présentation du réglage neuronal pour améliorer efficacement les capacités multitâches des grands modèles.
― 8 min lire
Une nouvelle méthode améliore les recherches de produits à travers différents formats de médias.
― 7 min lire
Une nouvelle approche se concentre sur des incohérences subtiles dans la détection de deepfake.
― 8 min lire
Vivez le Festival du Dragon Boat grâce à des techniques de pagaie virtuelles innovantes.
― 9 min lire
Présentation d'un cadre qui améliore la détection de la dépression grâce à des entretiens structurés.
― 7 min lire
Une nouvelle méthode pour créer des images claires à partir de textes complexes.
― 7 min lire
Combiner des images et du texte améliore les prédictions des événements futurs.
― 9 min lire
Cet article examine comment l'ordre des chansons influence l'expérience d'écoute des albums de musique.
― 8 min lire
Mu-MAE introduit de nouvelles méthodes pour reconnaître les activités humaines à travers plusieurs sources de données.
― 9 min lire
Un nouveau système cible efficacement les discours de haine dans les mèmes.
― 7 min lire
La technique ViMo transforme des vidéos du quotidien en mouvements 3D réalistes.
― 10 min lire
Explore les avancées et les défis de la technologie VR sans fil pour plusieurs utilisateurs.
― 8 min lire
Un nouveau modèle pour améliorer rapidement et efficacement les images en basse lumière.
― 7 min lire