Informatique - Multimédia

RSS

Multimédia Améliorer la localisation des sources sonores grâce à l'intégration audio-visuelle

Une étude sur l'amélioration de la localisation des sources sonores en utilisant mieux les infos audio et visuelles.

2025-07-14T06:12:35+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la visualisation d'histoires avec TemporalStory

TemporalStory améliore la génération d'images pour la narration en renforçant la cohérence et le contexte.

2025-07-13T23:59:06+00:00 ― 6 min lire

Son Évaluer l'impact de l'IA sur l'originalité de la musique

Un nouvel outil pour évaluer la répétition dans la musique générée par l'IA.

2025-07-13T12:23:45+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la clarté des images grâce aux techniques de désembuage

Un aperçu des méthodes pour améliorer la qualité des images affectées par la brume.

2025-07-12T23:26:25+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Nouveau jeu de données s'attaque aux défis de la contrefaçon d'images

Le dataset TGIF aide à détecter des techniques avancées de manipulation d'images.

2025-07-12T07:49:36+00:00 ― 7 min lire

Traitement de l'audio et de la parole Transformer la diffusion avec la technologie IP et le marquage audio

Découvrez comment la diffusion IP et le marquage audio transforment la livraison de contenu.

2025-07-12T05:37:35+00:00 ― 7 min lire

Ordinateurs et société Rendre le marketing en ligne plus efficace avec des insights d'IA

Intégrer l'IA pour améliorer les stratégies marketing et l'efficacité des campagnes.

2025-07-12T01:38:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la compréhension visuelle dans les modèles de langue

X-Former améliore comment les modèles combinent la compréhension des images et des textes.

2025-07-11T06:40:42+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Faire face à la désinformation hors contexte à l'ère numérique

Lutter contre la désinformation avec de nouvelles méthodes et technologies.

2025-07-10T22:46:42+00:00 ― 6 min lire

Calcul et langage Techniques avancées pour détecter la désinformation

Un nouveau système qui combine l'analyse de texte et d'images pour lutter contre la désinformation.

2025-07-10T07:30:18+00:00 ― 7 min lire

Multimédia Améliorer l'efficacité dans les modèles multimodaux avec RoE

La nouvelle méthode RoE améliore l'efficacité des modèles de langage multi-modaux avec un routage dynamique.

2025-07-10T02:38:00+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de vidéos 360 degrés

Présentation de 360VFI pour améliorer la qualité et l'expérience vidéo à 360 degrés.

2025-07-10T01:42:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Intégrer des entrées audio et visuelles dans des modèles de machine learning

Un nouveau modèle combine audio et vidéo pour une meilleure compréhension.

2025-07-09T23:36:18+00:00 ― 7 min lire

Son Avancées dans les techniques de séparation de la parole audio-visuelle

Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.

2025-07-09T16:53:50+00:00 ― 6 min lire

Multimédia Évaluer les techniques d'échantillonnage d'images vidéo pour une meilleure récupération

Cette étude passe en revue les méthodes d'échantillonnage d'images pour améliorer la récupération de contenu vidéo.

2025-07-09T09:07:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Automatisation de la création de temps forts de foot avec une technologie avancée

Un nouveau cadre facilite la création de clips vidéo de moments forts spécifiques à chaque joueur à partir de vidéos de football.

2025-07-09T06:29:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes HaloQuest : Une nouvelle approche de l'hallucination dans les VLMs

HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.

2025-07-08T23:14:48+00:00 ― 12 min lire

Multimédia Avancement de la recherche croisée 3D pour des catégories invisibles

Un nouveau cadre améliore la récupération d'objets 3D à partir de divers types de données.

2025-07-08T16:31:54+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Détecter les fausses infos dans les courtes vidéos

Examiner le processus créatif derrière la production de vidéos de fausses nouvelles.

2025-07-08T09:33:12+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans le scoring visuel avec QPT V2

QPT V2 améliore le scoring visuel en utilisant le modélisation d'images masquées et des données de haute qualité.

2025-07-08T07:26:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes MMTrail : Un ensemble de données vidéo complet pour les modèles de langage

MMTrail combine des descriptions visuelles et audio pour de meilleurs modèles de vidéo-langue.

2025-07-08T06:53:20+00:00 ― 6 min lire

Multimédia Protéger la vie privée dans la communication multimodale

Une nouvelle méthode renforce la confidentialité des images et textes partagés.

2025-07-08T03:14:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouveau cadre améliore la réponse aux questions audio-visuelles

Une nouvelle méthode améliore la performance de l'AVQA quand les entrées audio ou visuelles manquent.

2025-07-07T23:40:42+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Générer de l'audio synchronisé pour des vidéos silencieuses

Une méthode pour créer des audio qui correspondent aux vidéos en vue à la première personne.

2025-07-07T23:36:05+00:00 ― 9 min lire

Multimédia Nouvelle collection de modèles 3D pour la recherche

Une collection variée de modèles 3D pour des opportunités de recherche améliorées.

2025-07-07T13:24:30+00:00 ― 7 min lire

Son Évaluer les grands modèles de langage dans la création musicale

Cette étude examine à quel point les LLM comprennent et génèrent de la musique.

2025-07-07T10:38:45+00:00 ― 7 min lire

Son ChordSync : Aligner les accords de musique avec l'audio

Un nouveau modèle qui synchronise les annotations d'accords avec l'audio de la musique sans accroc.

2025-07-06T22:30:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle méthode améliore la compression des nuages de points

Un modèle unifié améliore la compression des nuages de points pour une meilleure qualité et efficacité.

2025-07-06T19:15:40+00:00 ― 9 min lire

Cryptographie et sécurité Une nouvelle approche pour la vérification d'images

Une méthode innovante ajoute des messages cachés pour garantir l'authenticité des images.

2025-07-06T15:01:30+00:00 ― 7 min lire

Son Nouvelle méthode pour détecter les deepfakes en utilisant l'audio et la vidéo

Un cadre qui identifie efficacement le contenu deepfake grâce à une analyse combinée de l'audio et de la vidéo.

2025-07-06T08:44:05+00:00 ― 7 min lire

Son Évaluer la compréhension musicale avec le benchmark MuChoMusic

Un nouveau critère pour évaluer les modèles qui analysent la musique et le langage.

2025-07-06T05:29:45+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Modèle innovant pour diagnostiquer la dépression

Une nouvelle approche combine des données audio, vidéo et texte pour un diagnostic efficace de la dépression.

2025-07-06T04:53:12+00:00 ― 10 min lire

Multimédia Faire avancer l'apprentissage général de zéro-shot audio-visuel

Un nouveau cadre améliore la classification dans des tâches audio-visuelles jamais vues.

2025-07-06T04:41:10+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la segmentation de silhouette humaine

Un nouveau modèle améliore la segmentation des silhouettes en utilisant des signaux RF pour un meilleur mouvement.

2025-07-06T03:34:12+00:00 ― 7 min lire

Multimédia Aborder les discours de haine dans les vidéos avec le dataset MultiHateClip

Nouveau jeu de données offre des infos sur les discours de haine dans différentes langues et formats.

2025-07-06T02:31:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la compression d'image pour les modèles multimodaux

Un nouveau cadre améliore le traitement d'image dans les grands modèles de langage multimodaux.

2025-07-06T00:56:12+00:00 ― 5 min lire

Multimédia AxiomVision : Transformer l'analyse vidéo pour des environnements dynamiques

AxiomVision propose une nouvelle façon d'analyser les vidéos, améliorant les performances dans des conditions changeantes.

2025-07-05T14:40:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la technologie de détection de la violence

De nouveaux systèmes combinent audio et vidéo pour une meilleure détection de la violence dans les espaces publics.

2025-07-05T14:06:40+00:00 ― 7 min lire

Multimédia Casques VR abordables pour des appels vidéo réalistes

Un nouveau système améliore les appels vidéo sur des casques VR pas chers en utilisant la saisie vocale.

2025-07-05T12:33:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Naviguer dans le processus de soumission de manuscrits académiques

Un guide clair sur les types de manuscrits et les défis de soumission.

2025-07-04T20:14:00+00:00 ― 6 min lire