Informatique - Multimédia

RSS

Vision par ordinateur et reconnaissance des formes L'avenir du WebXR dans le Metavers

WebXR transforme notre façon d'interagir avec des environnements numériques immersifs.

2025-08-21T07:24:48+00:00 ― 11 min lire

Multimédia Avancées dans la technologie de conversion lèvres-en-parole

Une nouvelle méthode améliore la synthèse vocale pour les personnes qui ne peuvent pas parler.

2025-08-20T20:14:25+00:00 ― 9 min lire

Langages de programmation AniFrame : Simplifier le code créatif pour les débutants

AniFrame rend l'art de la programmation accessible aux débutants grâce à une approche facile à utiliser.

2025-08-19T18:40:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la synthèse texte-image pour les légendes d'actualités

Nouveau jeu de données améliore la génération d'images à partir de légendes d'actualités complexes.

2025-08-19T17:13:48+00:00 ― 9 min lire

Multimédia Vérification des faits sur les fausses infos dans les réseaux sociaux

Une nouvelle méthode améliore la vérification des faits sur les réseaux sociaux.

2025-08-19T05:30:42+00:00 ― 9 min lire

Multimédia Présentation de Shotit : Une nouvelle façon de chercher des vidéos

Shotit permet aux utilisateurs de trouver des vidéos rapidement en utilisant des images, ce qui simplifie le processus de recherche.

2025-08-18T10:01:30+00:00 ― 8 min lire

Recherche d'informations Améliorer les recommandations dans les scénarios de démarrage à froid

Un nouveau cadre pour améliorer les recommandations sans données préalables.

2025-08-17T21:15:12+00:00 ― 9 min lire

Multimédia Pegasus-1 : Un nouveau modèle pour la compréhension vidéo

Pegasus-1 permet aux utilisateurs d'interagir avec des vidéos en utilisant un langage naturel.

2025-08-17T17:10:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la synthèse de têtes parlantes avec GaussianTalker

GaussianTalker propose une synchronisation labiale naturelle et des visuels de haute qualité pour des vidéos de tête parlante.

2025-08-17T09:24:12+00:00 ― 8 min lire

Multimédia Méthode innovante pour la reconnaissance de caractères dans les comics

Une nouvelle approche permet aux machines d'identifier des personnages de bande dessinée sans formation préalable.

2025-08-17T09:00:30+00:00 ― 7 min lire

Interaction homme-machine Rendre l'audio spatial accessible pour les créateurs de vidéos

Mimosa simplifie la création de son spatial pour les vidéastes amateurs.

2025-08-17T02:33:24+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la qualité vidéo dans le contenu généré par les utilisateurs

Le défi AIS 2024 cherche à améliorer les évaluations de qualité vidéo en utilisant l'apprentissage profond.

2025-08-16T21:01:36+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Humains numériques réalistes : L'essor de GaussianTalker

GaussianTalker transforme l'interaction numérique avec des têtes parlantes réalistes.

2025-08-16T19:34:42+00:00 ― 7 min lire

Traitement de l'audio et de la parole La tendance montante des sous-titres dans le streaming

Les sous-titres deviennent essentiels pour améliorer l'expérience des spectateurs sur les services de streaming.

2025-08-16T05:18:30+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Nouvelles méthodes pour détecter les deepfakes

La recherche introduit des techniques innovantes pour améliorer la détection des vidéos deepfake.

2025-08-14T19:39:06+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation du jeu de données 360+x pour une meilleure compréhension des scènes

Un nouveau jeu de données améliore la façon dont les robots interprètent les environnements réels.

2025-08-13T18:11:55+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Présentation de UniAV : Une approche unifiée de la localisation vidéo

UniAV combine la localisation d'action, la détection de son et la localisation d'événements audio-visuels pour une meilleure compréhension des vidéos.

2025-08-13T10:06:05+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans les techniques de détection d'objets

Une nouvelle méthode améliore les performances de détection d'objets en utilisant des requêtes adaptatives.

2025-08-13T07:50:18+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Le défi de détecter des deepfakes

Explorer la capacité humaine à identifier les vidéos deepfake par rapport à la détection par l'IA.

2025-08-12T22:05:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes L'impact de l'IA sur la cinématographie

Explorer comment l'IA transforme les processus de production vidéo pour les cinéastes.

2025-08-12T15:38:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation de PEAVS : Une nouvelle façon de mesurer la synchronisation audio-visuelle

PEAVS analyse comment l'audio et la vidéo fonctionnent ensemble pour offrir de meilleures expériences aux spectateurs.

2025-08-12T03:19:55+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Présentation de CinePile : Un nouveau standard dans la compréhension vidéo

CinePile défie la compréhension des vidéos longues avec 305 000 questions variées.

2025-08-11T01:11:48+00:00 ― 7 min lire

Cryptographie et sécurité QMedShield : Sécuriser les images médicales avec le chiffrement quantique

Une nouvelle méthode qui protège les images médicales dans le cloud en utilisant des techniques quantiques avancées.

2025-08-10T19:47:54+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Améliorer l'estimation des portions de nourriture avec des modèles 3D

Une nouvelle méthode améliore la précision du suivi alimentaire en utilisant des modèles 3D et des images 2D.

2025-08-10T18:56:35+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes L'importance du contexte dans les tâches vision-langage

Cette étude montre comment le contexte améliore la compréhension des images et des questions par les machines.

2025-08-10T10:50:42+00:00 ― 9 min lire

Son SemantiCodec : La prochaine étape dans la technologie audio

Un nouveau codec audio offrant une compression de haute qualité et un contenu sémantique riche.

2025-08-08T19:10:10+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Améliorer les vidéos de visages qui parlent de manière réaliste

Une étude présente une nouvelle méthode pour créer des vidéos de visages qui parlent de façon synchronisée.

2025-08-08T08:17:06+00:00 ― 7 min lire

Intelligence artificielle L'avenir de la génération multimodale avec les LLMs

Explore comment les grands modèles de langage améliorent la créativité à travers la génération multimédia.

2025-08-04T21:12:12+00:00 ― 10 min lire

Interaction homme-machine L'avenir du croquis 3D pour les designers

Explorer les avantages du croquis 3D immersif pour les architectes et les designers.

2025-08-04T19:45:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour la création de contenu audiovisuel

Présentation d'un modèle qui génère de l'audio et de la vidéo synchronisés avec des niveaux de bruit mélangés.

2025-08-04T14:45:50+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Un modèle simple pour la génération audio-visuelle

Cet article parle d'un nouveau modèle simple pour générer du son à partir d'images et vice versa.

2025-08-04T09:05:45+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Progrès dans les méthodes de création de contenu 3D

Nouvelles techniques améliorent la qualité et l'entraînement pour les images 3D.

2025-08-04T02:30:24+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes NuNet : Une nouvelle façon d'estimer la nutrition

NuNet utilise des données RGB et de profondeur pour de meilleures estimations nutritionnelles.

2025-08-03T08:51:48+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Approche innovante pour la génération conjointe audio-vidéo

Une nouvelle méthode améliore l'alignement audio-vidéo en utilisant des modèles pré-entraînés.

2025-08-03T04:45:20+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Introduction du Masque d'Attention Apprenable pour les Tâches Multimodales

Une nouvelle méthode pour améliorer les mécanismes d'attention dans le traitement de données complexes.

2025-08-02T16:00:36+00:00 ― 9 min lire

Multimédia IA dans le streaming vidéo : Efficacité et durabilité

Explorer comment l'IA améliore le streaming vidéo tout en promouvant l'efficacité énergétique.

2025-08-02T11:08:18+00:00 ― 8 min lire

Son Avancées dans la génération de vidéo en audio avec Frieren

Le modèle Frieren améliore la qualité audio et la synchronisation pour les vidéos.

2025-08-02T10:07:55+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans le rendu de scènes dynamiques avec Gear-NeRF

Gear-NeRF améliore le rendu de scènes 3D dynamiques en utilisant des techniques sensibles au mouvement.

2025-08-02T05:52:18+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancement des techniques de filigranage pour la protection d'images

Nouvelles méthodes renforcent les filigranes contre les menaces de retouche d'images modernes.

2025-08-02T05:36:30+00:00 ― 10 min lire

Interaction homme-machine Approches innovantes pour gérer les risques de chaleur

Un nouveau système combine des données et des infos pour mieux gérer le risque de chaleur.

2025-08-01T23:56:48+00:00 ― 7 min lire