Informatique - Multimédia

Vision par ordinateur et reconnaissance des formes Améliorer la création de vidéos avec DiffSynth

DiffSynth améliore la qualité des vidéos en réduisant les scintillements et en améliorant le mélange des images.

2025-10-11T07:46:54+00:00 ― 7 min lire

Derniers articles

Vision par ordinateur et reconnaissance des formes Avancées dans les réseaux de neurones à impulsions : compression de modèle avec optimisation minimax

2025-10-11T03:18:18+00:00 ― 8 min lire

Multimédia Jade : Une nouvelle approche de la qualité de streaming vidéo

2025-10-10T17:57:24+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Modèle innovant pour la sélection de couleurs dans le design

2025-10-10T17:49:30+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Transférer les mouvements de mains entre avatars

2025-10-10T04:39:30+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Question-Réponse Audio-Visuel : Unir le Son et la Vue

2025-10-09T23:47:12+00:00 ― 7 min lire

Derniers articles

Vision par ordinateur et reconnaissance des formes Découvrez l'Animateur de Visage Polyvalent pour l'Animation 3D

Une nouvelle méthode pour créer des animations faciales 3D réalistes rapidement et efficacement.

2025-10-09T16:32:42+00:00 ― 7 min lire

Cryptographie et sécurité Avancées en stéganographie vidéo et détection

De nouvelles méthodes améliorent la détection de messages cachés dans les fichiers vidéo.

2025-10-09T09:34:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Transformer des crânes en images d'animaux vivants

Une méthode pour traduire des images de crânes en représentations réalistes d'animaux en utilisant des invites textuelles.

2025-10-08T21:43:00+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans l'analyse vidéo en temps réel

De nouvelles méthodes améliorent la détection d'événements dans les vidéos en direct en utilisant des données linguistiques et historiques.

2025-10-08T18:57:06+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour détecter les mèmes haineux

Une nouvelle approche améliore la détection des mèmes nuisibles grâce à des questions ciblées.

2025-10-08T12:22:06+00:00 ― 10 min lire

Multimédia EMID : Une nouvelle approche de la musique et des images

Explore les liens émotionnels entre la musique et les images avec le dataset EMID.

2025-10-08T07:45:36+00:00 ― 6 min lire

Traitement de l'image et de la vidéo Reconstruire des images visuelles à partir des signaux cérébraux

Cette recherche relie l'activité cérébrale à la perception visuelle en reconstruisant des images à partir de signaux EEG.

2025-10-08T06:54:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Connecter des mots aux images : le ancrage visuel débloqué

Découvre l'impact de l'ancrage visuel dans les interactions entre le langage et les images.

2025-10-07T08:43:06+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Faire avancer la reconnaissance vidéo avec AVGN

Une nouvelle méthode améliore l'efficacité de la reconnaissance vidéo en utilisant des données audio et visuelles.

2025-10-07T00:09:36+00:00 ― 7 min lire

Intelligence artificielle Avancées en IA pour le test de jeux

Un nouvel agent IA améliore l'efficacité et la qualité des tests de jeux.

2025-10-06T23:38:00+00:00 ― 8 min lire

Multimédia Présentation de Dronevision : Un système d'affichage 3D compact

Dronevision révolutionne le multimédia 3D avec un écran de la taille d'un bureau utilisant des drones volants.

2025-10-06T22:03:12+00:00 ― 8 min lire

Multimédia Évaluation des capteurs de distance pour les petites lumières volantes

Une étude sur les capteurs essentiels pour la performance des nouveaux drones.

2025-10-06T21:55:18+00:00 ― 5 min lire

Recherche d'informations Améliorer les systèmes de recommandation avec des données multimodales

Un nouveau cadre améliore les suggestions d'articles en utilisant différents types de données.

2025-10-05T12:52:24+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes EVE : Une nouvelle approche des modèles vision-langage

Découvrez EVE, un modèle qui améliore la compréhension des images et du texte.

2025-10-05T11:09:42+00:00 ― 8 min lire

Multimédia Avancées dans les modèles de pré-entraînement Vision-Langage

La recherche se concentre sur l'amélioration des modèles qui relient les visuels et le texte grâce à la compréhension du langage.

2025-10-04T21:51:48+00:00 ― 8 min lire

Interaction homme-machine Avancées dans la génération de gestes pour la communication AI

Nouveau modèle améliore la génération de gestes pour des interactions plus humaines.

2025-10-04T05:32:12+00:00 ― 6 min lire

Multimédia Avancées dans le Matching Visuel Acoustique

Une nouvelle méthode améliore l'appariement audio en utilisant des images, rendant les environnements audio plus réalistes.

2025-10-03T03:55:25+00:00 ― 8 min lire

Apprentissage automatique Les risques de la stéganographie en apprentissage automatique

Examiner les soucis de données cachées dans les modèles de machine learning et leurs implications sur la sécurité.

2025-10-03T03:12:12+00:00 ― 9 min lire

Traitement de l'audio et de la parole Nouveau jeu de données lie les émotions à la musique MIDI

Un ensemble de données relie les émotions aux chansons MIDI en utilisant l'analyse des paroles.

2025-10-03T02:18:15+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Améliorer TextVQA avec la méthode Séparer et Localiser

Une nouvelle approche améliore la précision pour répondre aux questions sur le texte dans les images.

2025-10-02T16:40:12+00:00 ― 7 min lire

Multimédia Avancées dans la réponse aux questions visuelles avec PROOFREAD

PROOFREAD améliore la réponse visuelle aux questions en utilisant des connaissances provenant de grands modèles de langage.

2025-10-02T08:30:24+00:00 ― 7 min lire

Son Faire avancer le sous-titrage musical avec des grands modèles de langage

Utiliser des LLMs pour créer un énorme dataset pour le descripteur de musique.

2025-10-02T08:29:25+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de terrains avec TDN

Le Terrain Diffusion Network améliore la création de paysages réalistes avec l'implication des utilisateurs.

2025-10-02T06:00:18+00:00 ― 6 min lire

Son Avancées dans la technologie de transfert de style vocal

HierVST transforme les voix sans effort, améliorant la qualité audio sans avoir besoin de données massives.

2025-10-02T05:15:05+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour transformer des visages en croquis artistiques

Une nouvelle méthode transforme des photos de visages en dessins humanoïdes grâce à des techniques avancées.

2025-10-02T04:33:24+00:00 ― 7 min lire

Multimédia Avancées dans l'estimation de l'engagement pour les conversations

La recherche développe un modèle pour mesurer avec précision l'engagement dans les conversations.

2025-10-01T21:57:50+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Protéger l'authenticité : la méthode DRAW pour les images RAW

Une nouvelle approche pour protéger les images RAW de la manipulation.

2025-10-01T10:37:40+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Comprendre le VideoQA : défis et solutions

Nouveau dataset et méthodes améliorent la précision des réponses aux questions sur les vidéos.

2025-10-01T06:57:48+00:00 ― 8 min lire

Calcul et langage Faire avancer l'analyse de sentiment avec le cadre UniSA

Le cadre UniSA regroupe les tâches d'analyse des sentiments pour une meilleure reconnaissance des émotions.

2025-10-01T06:18:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle technique trompe les détecteurs de deepfake

Une méthode qui utilise des rotations de tête trompe avec succès les systèmes de détection de deepfake.

2025-10-01T02:45:00+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Présentation du MultiWay-Adapter pour les modèles multimodaux

Un cadre pour l'adaptation efficace des modèles de langage multimodaux.

2025-10-01T01:18:06+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Une approche comparative pour l'inspection des jeux de données

Utiliser des prototypes pour améliorer la comparaison des jeux de données en vision par ordinateur.

2025-09-30T09:38:00+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Conception typographique automatisée pour une communication efficace

Un programme qui génère une typographie visuellement sympa selon le contexte.

2025-09-30T06:28:24+00:00 ― 5 min lire

Son MusicLDM : Une nouvelle approche pour la génération de musique à partir de texte

MusicLDM transforme du texte en musique originale, offrant de nouvelles pistes de créativité.

2025-09-30T05:28:40+00:00 ― 9 min lire

Son Amélioration des techniques d'extraction de mélodie chantée avec le deep learning

De nouvelles méthodes améliorent la précision pour extraire des mélodies chantées à partir d'audio mixte.

2025-09-30T01:25:45+00:00 ― 9 min lire

Calcul et langage Avancées dans la technologie de sous-titrage audio

De nouvelles méthodes visent à améliorer le sous-titrage audio pour plus de précision et d'efficacité.

2025-09-30T00:25:00+00:00 ― 6 min lire

Multimédia Améliorer les méthodes d'évaluation du sous-titrage audio

De nouvelles techniques améliorent l'évaluation de la qualité des sous-titres audio grâce à la détection automatique des erreurs.

2025-09-30T00:17:06+00:00 ― 7 min lire

Traitement de l'audio et de la parole Examiner la qualité de la voix et son impact

Cette étude examine les méthodes de classification de la qualité vocale et leur importance dans la communication.

2025-09-29T12:28:25+00:00 ― 6 min lire

Cryptographie et sécurité Le besoin grandissant de stéganalyse en sécurité de l'information

La stéganalyse aide à détecter des messages cachés dans les multimédias, garantissant une communication sécurisée.

2025-09-28T23:31:05+00:00 ― 5 min lire

Multimédia TranSTYLer : Un Bond dans la Communication Virtuelle

Transformer des gestes pour des agents virtuels tout en gardant leur sens.

2025-09-28T18:39:35+00:00 ― 7 min lire