Bhiksha Raj

Vision par ordinateur et reconnaissance des formes Améliorer la robustesse des DNN avec un flou rétinien

Des recherches montrent que reproduire la vision humaine peut renforcer les réseaux de neurones profonds contre les attaques.

2025-10-13T14:57:00+00:00 ― 8 min lire

Apprentissage automatique Améliorer les réseaux de neurones profonds avec des insights biologiques

Une nouvelle couche renforce la résistance des DNN aux changements subtils d'entrée.

2025-10-11T15:09:18+00:00 ― 7 min lire

Calcul et langage Avancées dans la synthèse vocale avec BASS

BASS améliore le résumé des longs audios en traitant par blocs.

2025-10-08T15:05:55+00:00 ― 6 min lire

Apprentissage automatique Correction des erreurs d'étiquetage dans l'entraînement du modèle

Cet article examine les défis et les solutions liés aux étiquettes bruyantes dans les données d'entraînement.

2025-09-20T07:53:36+00:00 ― 8 min lire

Traitement de l'audio et de la parole Progrès dans la légende audio avec une formation uniquement sur texte

Une nouvelle méthode forme des systèmes de légendes audio en utilisant uniquement des descriptions textuelles.

2025-09-13T02:56:55+00:00 ― 8 min lire

Apprentissage automatique Avancées dans les techniques d'apprentissage faiblement supervisé

Un nouveau cadre améliore l'apprentissage à partir d'étiquettes de données incomplètes.

2025-09-12T00:01:24+00:00 ― 7 min lire

Robotique Tester des robots pour des défis inattendus

Explorer des méthodes pour améliorer les performances des robots dans des environnements imprévisibles.

2025-09-09T02:53:54+00:00 ― 6 min lire

Apprentissage automatique Améliorer l'apprentissage avec des étiquettes faibles grâce à la sélection d'exemples négatifs

De nouvelles stratégies améliorent l'apprentissage avec des étiquettes faibles en sélectionnant des exemples négatifs pertinents.

2025-09-06T04:57:20+00:00 ― 8 min lire

Apprentissage automatique Les défis de l'apprentissage avec des modèles bruyants

Examiner comment le bruit dans les données de pré-entraînement influence la performance du modèle.

2025-08-30T14:35:18+00:00 ― 8 min lire

Traitement de l'audio et de la parole Une nouvelle approche pour l'évaluation de la qualité audio avec PAM

PAM propose une nouvelle façon de mesurer la qualité audio sans avoir besoin d'enregistrements de référence.

2025-08-26T21:10:50+00:00 ― 8 min lire

Traitement de l'audio et de la parole Évaluer la reconnaissance vocale dans des environnements bruyants

Un nouveau critère évalue la performance des systèmes de reconnaissance vocale face à différentes distorsions.

2025-08-19T14:16:50+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Les avantages d'une légère corruption dans les modèles de diffusion

Enquête sur comment de petites erreurs dans les données d'entraînement améliorent le contenu généré par l'IA.

2025-08-04T09:29:06+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des modèles SLAM dans des environnements bruyants

Nouveau cadre qui évalue la performance du SLAM dans des conditions difficiles.

2025-07-25T00:06:30+00:00 ― 8 min lire

Calcul et langage Techniques innovantes en reconnaissance vocale pour les langues à faible ressources

De nouvelles méthodes améliorent les modèles de parole pour les langues avec peu de données.

2025-07-24T19:39:10+00:00 ― 7 min lire

Son Avancées dans la technologie de reconnaissance des émotions dans la voix

De nouvelles méthodes améliorent la compréhension des émotions humaines dans la parole par les machines.

2025-07-12T18:34:55+00:00 ― 5 min lire

Son Évaluer le raisonnement dans les modèles audio-langage

Cette étude évalue les compétences en raisonnement des modèles audio-langage avec une nouvelle tâche.

2025-07-10T09:54:05+00:00 ― 9 min lire

Calcul et langage L'impact des méthodes d'annotation sur la synthèse de la parole

Cette étude examine comment différentes méthodes de résumé affectent la qualité et le contenu.

2025-07-02T05:56:55+00:00 ― 7 min lire

Son Améliorer la vérification des locuteurs avec des caractéristiques phonétiques

Un nouveau cadre améliore la précision de la confirmation de l'identité vocale.

2025-06-15T01:50:18+00:00 ― 7 min lire

Son Améliorer la reconnaissance vocale avec des caractéristiques inspirées par l'humain

De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.

2025-06-03T14:29:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les codecs neuraux avec ESPnet-Codec

ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.

2025-06-03T03:09:30+00:00 ― 9 min lire

Son Révolutionner le sous-titrage audio avec MACE

MACE améliore la légende audio en liant les sons à des descriptions textuelles précises.

2025-05-28T17:47:08+00:00 ― 5 min lire

Apprentissage automatique Comprendre les graphes : Des nœuds à la connaissance

Explore comment POGAT améliore l'analyse de structures graphiques complexes.

2025-05-04T12:20:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes SoftVQ-VAE : Transformer la génération d'images

Découvrez comment SoftVQ-VAE améliore la création d'images avec efficacité et qualité.

2025-03-08T21:22:03+00:00 ― 7 min lire