Informatique - Multimédia

Multimédia Analyser la popularité des réseaux sociaux : décalage entre texte et image

Des recherches montrent que l'incohérence entre le texte et l'image augmente avec la popularité des posts sur les réseaux sociaux.

2025-07-22T14:26:18+00:00 ― 5 min lire

Son Avancée de la génération audio avec le dataset Sound-VECaps

Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.

2025-07-21T07:26:30+00:00 ― 6 min lire

Multimédia OpenVNA : Faire avancer la compréhension des langues dans le bruit

Un nouvel outil pour tester les modèles de langue dans des environnements bruyants.

2025-07-21T05:23:24+00:00 ― 5 min lire

Multimédia Améliorer l'extraction de maillage de référence à partir de formes variables dans le temps

Une nouvelle méthode pour créer des maillages de référence plus propres à partir de formes 3D dynamiques.

2025-07-20T22:24:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la segmentation d'expressions référentielles faiblement supervisées

Une nouvelle méthode réduit le besoin de données étiquetées dans les tâches de vision par ordinateur.

2025-07-20T20:57:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour créer du son à partir de vidéo et de texte

Cet article présente une méthode pour générer un son précis à partir de vidéos et de texte.

2025-07-20T16:03:25+00:00 ― 9 min lire

Calcul et langage Avancées dans le traitement des documents avec LayTextLLM

Présentation d'un nouveau modèle qui combine efficacement le texte et la mise en page pour une meilleure compréhension des documents.

2025-07-20T12:48:00+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes KeyVideoLLM : Améliorer la gestion des données vidéo

Une nouvelle méthode améliore la gestion des données vidéo pour une meilleure compréhension et efficacité.

2025-07-20T06:52:30+00:00 ― 7 min lire

Interaction homme-machine Faire avancer l'IA mobile avec le dataset AMEX

Le dataset AMEX améliore la compréhension de l'IA sur les interfaces d'applications mobiles.

2025-07-20T00:09:36+00:00 ― 9 min lire

Son Nouveaux ensembles de données pour la reconnaissance des émotions dans la musique

Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.

2025-07-19T20:37:25+00:00 ― 7 min lire

Multimédia Les jeux vidéo comme outils pour apprendre des compétences en programmation

Explorer comment les jeux vidéo peuvent enseigner des compétences en programmation essentielles de manière efficace et engageante.

2025-07-19T06:31:00+00:00 ― 7 min lire

Multimédia Avancées dans l'apprentissage zéro-shot audio-visuel

Combiner son et images pour des systèmes de reconnaissance plus intelligents.

2025-07-18T21:08:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Simplifier la création de vidéos avec le cadre VCoME

VCoME aide les utilisateurs à créer des vidéos verbales captivantes facilement.

2025-07-18T18:32:06+00:00 ― 5 min lire

Son Avancées dans la technologie de génération vidéo vers audio

Des chercheurs veulent créer des sons qui vont avec des vidéos silencieuses, pour améliorer l'expérience des spectateurs.

2025-07-18T12:14:05+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la génération de questions visuelles avec des doubles indices

Une nouvelle approche améliore la clarté des questions générées à partir d'images.

2025-07-18T06:17:24+00:00 ― 8 min lire

Cryptographie et sécurité Intégrer des signatures numériques dans des fichiers CSV

Apprends à sécuriser les données CSV avec des signatures numériques.

2025-07-18T03:15:42+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans les techniques de récupération d'images composées

Cette méthode améliore la recherche d'images en combinant efficacement les images et le texte.

2025-07-17T08:26:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Présentation de LeRF : Une nouvelle façon de redimensionner des images

LeRF combine l'apprentissage profond et l'interpolation pour un meilleur redimensionnement d'images.

2025-07-16T22:59:15+00:00 ― 9 min lire

Traitement de l'image et de la vidéo L'IA aide les radiologues à analyser les radios de thorax

Un nouveau modèle d'IA améliore l'interprétation des radiographies thoraciques pour de meilleurs diagnostics.

2025-07-16T07:36:10+00:00 ― 8 min lire

Calcul et langage Faire avancer la création de contenu sur les réseaux sociaux avec l'IA

Une nouvelle méthode pour créer du contenu accrocheur sur les réseaux sociaux en utilisant l'IA.

2025-07-15T21:48:18+00:00 ― 8 min lire

Son BandControlNet : Une nouvelle approche de la création musicale

Découvrez comment l'IA transforme la génération de musique avec BandControlNet.

2025-07-15T19:27:25+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour détecter les deepfakes

Une nouvelle méthode améliore la détection des deepfakes en utilisant une analyse audio-visuelle.

2025-07-15T12:10:10+00:00 ― 7 min lire

Son Améliorer la détection du bégaiement avec MMSD-Net

Une nouvelle méthode améliore la détection du bégaiement en combinant des données audio, vidéo et textuelles.

2025-07-15T07:18:40+00:00 ― 7 min lire

Multimédia Améliorer la localisation des sources sonores grâce à l'intégration audio-visuelle

Une étude sur l'amélioration de la localisation des sources sonores en utilisant mieux les infos audio et visuelles.

2025-07-14T06:12:35+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la visualisation d'histoires avec TemporalStory

TemporalStory améliore la génération d'images pour la narration en renforçant la cohérence et le contexte.

2025-07-13T23:59:06+00:00 ― 6 min lire

Son Évaluer l'impact de l'IA sur l'originalité de la musique

Un nouvel outil pour évaluer la répétition dans la musique générée par l'IA.

2025-07-13T12:23:45+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la clarté des images grâce aux techniques de désembuage

Un aperçu des méthodes pour améliorer la qualité des images affectées par la brume.

2025-07-12T23:26:25+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Nouveau jeu de données s'attaque aux défis de la contrefaçon d'images

Le dataset TGIF aide à détecter des techniques avancées de manipulation d'images.

2025-07-12T07:49:36+00:00 ― 7 min lire

Traitement de l'audio et de la parole Transformer la diffusion avec la technologie IP et le marquage audio

Découvrez comment la diffusion IP et le marquage audio transforment la livraison de contenu.

2025-07-12T05:37:35+00:00 ― 7 min lire

Ordinateurs et société Rendre le marketing en ligne plus efficace avec des insights d'IA

Intégrer l'IA pour améliorer les stratégies marketing et l'efficacité des campagnes.

2025-07-12T01:38:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la compréhension visuelle dans les modèles de langue

X-Former améliore comment les modèles combinent la compréhension des images et des textes.

2025-07-11T06:40:42+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Faire face à la désinformation hors contexte à l'ère numérique

Lutter contre la désinformation avec de nouvelles méthodes et technologies.

2025-07-10T22:46:42+00:00 ― 6 min lire

Calcul et langage Techniques avancées pour détecter la désinformation

Un nouveau système qui combine l'analyse de texte et d'images pour lutter contre la désinformation.

2025-07-10T07:30:18+00:00 ― 7 min lire

Multimédia Améliorer l'efficacité dans les modèles multimodaux avec RoE

La nouvelle méthode RoE améliore l'efficacité des modèles de langage multi-modaux avec un routage dynamique.

2025-07-10T02:38:00+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de vidéos 360 degrés

Présentation de 360VFI pour améliorer la qualité et l'expérience vidéo à 360 degrés.

2025-07-10T01:42:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Intégrer des entrées audio et visuelles dans des modèles de machine learning

Un nouveau modèle combine audio et vidéo pour une meilleure compréhension.

2025-07-09T23:36:18+00:00 ― 7 min lire

Son Avancées dans les techniques de séparation de la parole audio-visuelle

Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.

2025-07-09T16:53:50+00:00 ― 6 min lire

Multimédia Évaluer les techniques d'échantillonnage d'images vidéo pour une meilleure récupération

Cette étude passe en revue les méthodes d'échantillonnage d'images pour améliorer la récupération de contenu vidéo.

2025-07-09T09:07:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Automatisation de la création de temps forts de foot avec une technologie avancée

Un nouveau cadre facilite la création de clips vidéo de moments forts spécifiques à chaque joueur à partir de vidéos de football.

2025-07-09T06:29:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes HaloQuest : Une nouvelle approche de l'hallucination dans les VLMs

HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.

2025-07-08T23:14:48+00:00 ― 12 min lire