Des recherches montrent que l'incohérence entre le texte et l'image augmente avec la popularité des posts sur les réseaux sociaux.
― 5 min lire
La science de pointe expliquée simplement
Des recherches montrent que l'incohérence entre le texte et l'image augmente avec la popularité des posts sur les réseaux sociaux.
― 5 min lire
Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.
― 6 min lire
Un nouvel outil pour tester les modèles de langue dans des environnements bruyants.
― 5 min lire
Une nouvelle méthode pour créer des maillages de référence plus propres à partir de formes 3D dynamiques.
― 7 min lire
Une nouvelle méthode réduit le besoin de données étiquetées dans les tâches de vision par ordinateur.
― 7 min lire
Cet article présente une méthode pour générer un son précis à partir de vidéos et de texte.
― 9 min lire
Présentation d'un nouveau modèle qui combine efficacement le texte et la mise en page pour une meilleure compréhension des documents.
― 6 min lire
Une nouvelle méthode améliore la gestion des données vidéo pour une meilleure compréhension et efficacité.
― 7 min lire
Le dataset AMEX améliore la compréhension de l'IA sur les interfaces d'applications mobiles.
― 9 min lire
Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.
― 7 min lire
Explorer comment les jeux vidéo peuvent enseigner des compétences en programmation essentielles de manière efficace et engageante.
― 7 min lire
Combiner son et images pour des systèmes de reconnaissance plus intelligents.
― 8 min lire
VCoME aide les utilisateurs à créer des vidéos verbales captivantes facilement.
― 5 min lire
Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.
― 7 min lire
Une nouvelle approche améliore la clarté des questions générées à partir d'images.
― 8 min lire
Apprends à sécuriser les données CSV avec des signatures numériques.
― 6 min lire
Cette méthode améliore la recherche d'images en combinant efficacement les images et le texte.
― 7 min lire
LeRF combine l'apprentissage profond et l'interpolation pour un meilleur redimensionnement d'images.
― 9 min lire
Un nouveau modèle d'IA améliore l'interprétation des radiographies thoraciques pour de meilleurs diagnostics.
― 8 min lire
Une nouvelle méthode pour créer du contenu accrocheur sur les réseaux sociaux en utilisant l'IA.
― 8 min lire
Découvrez comment l'IA transforme la génération de musique avec BandControlNet.
― 7 min lire
Une nouvelle méthode améliore la détection des deepfakes en utilisant une analyse audio-visuelle.
― 7 min lire
Une nouvelle méthode améliore la détection du bégaiement en combinant des données audio, vidéo et textuelles.
― 7 min lire
Une étude sur l'amélioration de la localisation des sources sonores en utilisant mieux les infos audio et visuelles.
― 9 min lire
TemporalStory améliore la génération d'images pour la narration en renforçant la cohérence et le contexte.
― 6 min lire
Un nouvel outil pour évaluer la répétition dans la musique générée par l'IA.
― 9 min lire
Un aperçu des méthodes pour améliorer la qualité des images affectées par la brume.
― 8 min lire
Le dataset TGIF aide à détecter des techniques avancées de manipulation d'images.
― 7 min lire
Découvrez comment la diffusion IP et le marquage audio transforment la livraison de contenu.
― 7 min lire
Intégrer l'IA pour améliorer les stratégies marketing et l'efficacité des campagnes.
― 8 min lire
X-Former améliore comment les modèles combinent la compréhension des images et des textes.
― 11 min lire
Lutter contre la désinformation avec de nouvelles méthodes et technologies.
― 6 min lire
Un nouveau système qui combine l'analyse de texte et d'images pour lutter contre la désinformation.
― 7 min lire
La nouvelle méthode RoE améliore l'efficacité des modèles de langage multi-modaux avec un routage dynamique.
― 9 min lire
Présentation de 360VFI pour améliorer la qualité et l'expérience vidéo à 360 degrés.
― 7 min lire
Un nouveau modèle combine audio et vidéo pour une meilleure compréhension.
― 7 min lire
Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.
― 6 min lire
Cette étude passe en revue les méthodes d'échantillonnage d'images pour améliorer la récupération de contenu vidéo.
― 8 min lire
Un nouveau cadre facilite la création de clips vidéo de moments forts spécifiques à chaque joueur à partir de vidéos de football.
― 8 min lire
HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.
― 12 min lire