Derniers articles pour Audio

Son Avancée de la génération audio avec le dataset Sound-VECaps

Nouveau jeu de données améliore la génération audio à partir de descriptions textuelles détaillées.

2025-07-21T07:26:30+00:00 ― 6 min lire

Son Nouveaux ensembles de données pour la reconnaissance des émotions dans la musique

Présentation des ensembles de données MERGE pour améliorer la classification des émotions dans la musique.

2025-07-19T20:37:25+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Technologie deepfake : opportunités et risques à venir

Un aperçu des méthodes de création et de détection des deepfakes.

2025-07-17T11:43:30+00:00 ― 9 min lire

Graphisme L'impact des retours de collision en réalité virtuelle

Examiner comment les retours pendant les collisions influencent l'expérience utilisateur dans des espaces VR bondés.

2025-07-16T01:05:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour détecter les deepfakes

Une nouvelle méthode améliore la détection des deepfakes en utilisant une analyse audio-visuelle.

2025-07-15T12:10:10+00:00 ― 7 min lire

Son Génération sonore innovante pour des modèles humains 3D

Une nouvelle méthode améliore la création de sons pour des modèles humains 3D réalistes.

2025-07-15T00:01:25+00:00 ― 8 min lire

Calcul et langage Améliorer la détection de la santé mentale avec des données multimodales

Une nouvelle méthode combine texte, émotions et audio pour détecter la santé mentale de manière plus efficace.

2025-07-14T06:42:00+00:00 ― 9 min lire

Intelligence artificielle Parler d'émotions : Support audio pour les sentiments

Un projet qui offre un soutien émotionnel via des réponses audio pour ceux qui en ont besoin.

2025-07-14T05:46:42+00:00 ― 6 min lire

Son Génération Audio Ouverte : Un Nouveau Modèle

Un nouveau modèle de texte à audio utilisant uniquement des données publiques.

2025-07-13T11:35:10+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes OmniBind : Une nouvelle approche pour les données multimodales

OmniBind intègre différents types de données pour une meilleure compréhension et génération de contenu.

2025-07-12T14:16:42+00:00 ― 6 min lire

Traitement de l'audio et de la parole Codecs vocaux et préservation des émotions

Examiner comment les codecs gardent les émotions dans les données vocales.

2025-07-12T06:26:10+00:00 ― 7 min lire

Son Amélioration de la détection de la compression audio avec perte

Une étude sur l'amélioration des méthodes pour détecter la compression audio avec perte pour une meilleure qualité sonore.

2025-07-07T12:15:55+00:00 ― 7 min lire

Son ChordSync : Aligner les accords de musique avec l'audio

Un nouveau modèle qui synchronise les annotations d'accords avec l'audio de la musique sans accroc.

2025-07-06T22:30:00+00:00 ― 7 min lire

Son Nouvelle méthode pour détecter les deepfakes en utilisant l'audio et la vidéo

Un cadre qui identifie efficacement le contenu deepfake grâce à une analyse combinée de l'audio et de la vidéo.

2025-07-06T08:44:05+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Modèle innovant pour diagnostiquer la dépression

Une nouvelle approche combine des données audio, vidéo et texte pour un diagnostic efficace de la dépression.

2025-07-06T04:53:12+00:00 ― 10 min lire

Robotique Présentation de VAT-CMR : Une nouvelle approche pour la recherche cross-modale

VAT-CMR permet aux robots de récupérer des objets en utilisant des données visuelles, audio et tactiles.

2025-07-04T20:45:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans l'animation faciale 3D pilotée par l'audio

UniTalker fusionne des jeux de données pour une meilleure précision d'animation faciale.

2025-07-03T22:22:36+00:00 ― 9 min lire

Calcul et langage Avancées dans les systèmes de dialogue vocal

Style-Talker améliore les conversations entre les humains et les machines grâce à une profondeur émotionnelle.

2025-07-01T13:45:15+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la détection des deepfakes avec des détails fins

Une nouvelle approche se concentre sur des incohérences subtiles dans la détection de deepfake.

2025-07-01T04:02:15+00:00 ― 8 min lire

Interaction homme-machine Combiner des données pour une meilleure évaluation de la santé mentale

Une nouvelle méthode combine EEG, audio et expressions faciales pour évaluer la santé mentale.

2025-06-27T18:23:00+00:00 ― 8 min lire

Son Défis pour détecter des signaux de parole partiellement faux

Un aperçu des complexités pour identifier des pistes audio mixées.

2025-06-25T06:20:10+00:00 ― 8 min lire

Son Avancées dans le contrôle de la génération audio

Un nouveau modèle sépare le timbre et la structure pour une meilleure création audio.

2025-06-23T17:24:32+00:00 ― 9 min lire

Robotique RoboMNIST : Un nouveau dataset pour la reconnaissance d'activités de robots

RoboMNIST aide les robots à reconnaître différentes activités en utilisant le WiFi, la vidéo et le son.

2025-06-22T09:30:35+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées en Technologie Audio : Présentation de X-Codec

X-Codec améliore la génération audio en intégrant la compréhension sémantique dans le traitement.

2025-06-21T15:41:45+00:00 ― 7 min lire

Son Avancées dans la technologie d'extraction de locuteurs cibles

De nouvelles méthodes améliorent la séparation des voix dans des environnements bruyants.

2025-06-20T13:47:05+00:00 ― 5 min lire

Son Nouvelle méthode pour une génération de discours efficace

Un nouveau système génère de la parole à partir de texte en utilisant un minimum de données.

2025-06-19T04:27:24+00:00 ― 6 min lire

Son Filigrane dans les Modèles Généraux Audio : Une Nouvelle Approche

De nouvelles méthodes de filigrane protègent les créateurs dans les modèles génératifs audio.

2025-06-18T23:43:40+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de mouvements avec des entrées texte et audio

Un nouveau cadre améliore la génération de mouvements pour les animations et les expériences virtuelles.

2025-06-17T13:21:06+00:00 ― 8 min lire

Son Nouveau modèle améliore la qualité audio en supprimant les bruits de respiration

Un nouveau modèle simplifie la production audio en éliminant automatiquement les sons de respiration.

2025-06-17T10:28:50+00:00 ― 7 min lire

Son Nouvelle approche pour le transfert de timbre musical

Une nouvelle méthode améliore la transformation audio tout en préservant la mélodie et la qualité sonore.

2025-06-16T05:19:50+00:00 ― 8 min lire

Son Réseaux de neurones dans la modélisation de la réverbération à ressort

Cette étude évalue des réseaux de neurones pour reproduire les caractéristiques de la réverbération à ressort.

2025-06-15T20:24:12+00:00 ― 10 min lire

Son Avancées dans la technologie de synthèse vocale émotionnelle

ParaEVITS améliore l'expression émotionnelle dans la synthèse vocale grâce à un guidage en langage naturel.

2025-06-15T05:50:55+00:00 ― 6 min lire

Calcul et langage Avancées dans la segmentation des sujets des nouvelles parlées

De nouvelles méthodes améliorent l'accès aux nouvelles parlées en segmentant les sujets plus efficacement.

2025-06-15T00:59:25+00:00 ― 8 min lire

Traitement de l'audio et de la parole Avancées dans l'extraction du son cible avec SoloAudio

SoloAudio améliore l'extraction sonore avec des techniques avancées et des données synthétiques.

2025-06-13T17:24:40+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la technologie de détection des locuteurs actifs

Nouveau modèle améliore la détection des intervenants en temps réel et l'efficacité de la communication.

2025-06-12T14:43:12+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la génération audio basée sur le style

Un nouveau modèle améliore la génération audio en utilisant des textes et des sons de référence détaillés.

2025-06-11T08:43:50+00:00 ― 8 min lire

Son MusicLIME : Un nouvel outil pour l'analyse musicale par IA

MusicLIME aide à comprendre comment l'IA analyse la musique à travers l'audio et les paroles.

2025-06-10T00:20:30+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes V-AURA : Avancement de l'intégration vidéo-audio

Un nouveau modèle crée de l'audio qui correspond à la vidéo, améliorant les expériences médiales.

2025-06-05T23:59:05+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer l'apprentissage en ligne avec l'alignement vidéo-diapositive

Une nouvelle approche combine des vidéos de cours et des diapositives pour mieux engager les étudiants.

2025-06-02T05:17:45+00:00 ― 7 min lire

Son Intégration des données audio-visuelles pour le traitement de la parole

Cette étude analyse comment l'audio, la vidéo et le texte fonctionnent ensemble dans la reconnaissance vocale.

2025-05-30T15:13:22+00:00 ― 9 min lire