Un nouveau jeu de données aide à identifier les textes retouchés par l'IA dans les résumés académiques.
― 7 min lire
La science de pointe expliquée simplement
Un nouveau jeu de données aide à identifier les textes retouchés par l'IA dans les résumés académiques.
― 7 min lire
Un modèle open-source dédié à corriger les fautes de grammaire en chinois natif.
― 6 min lire
Une nouvelle référence pour évaluer les modèles linguistiques dans des contextes médicaux chinois.
― 13 min lire
Un nouveau modèle améliore la façon dont les ordinateurs traitent la langue parlée.
― 5 min lire
Un aperçu des recommandations par conversation utilisant un vrai dialogue pour de meilleures suggestions.
― 7 min lire
Le nouveau modèle EmoPP améliore la parole avec des indices émotionnels.
― 6 min lire
AceGPT améliore le traitement de la langue arabe adapté à la culture et aux valeurs locales.
― 6 min lire
PIAVE aide les machines à extraire les voix clairement, même quand les intervenants tournent la tête.
― 7 min lire
FluentEditor améliore le montage audio en se concentrant sur le flow naturel et la cohérence.
― 5 min lire
De nouvelles méthodes d'apprentissage améliorent l'efficacité et la précision des réseaux neuronaux à pics.
― 8 min lire
CoAVT intègre des données audio, visuelles et textuelles pour une meilleure compréhension.
― 9 min lire
De nouvelles méthodes améliorent la détection des orateurs audio-visuels dans des environnements difficiles.
― 9 min lire
SEANet améliore l'isolement des intervenants en réduisant le bruit dans le traitement audio.
― 8 min lire
AdvEval met en lumière les faiblesses des métriques d'évaluation de la génération de langage naturel.
― 8 min lire
Une nouvelle approche améliore les systèmes de dialogue en combinant les sujets et les structures rhétoriques.
― 8 min lire
Le nouveau modèle ARDiT améliore la synthèse vocale et l'édition de la parole.
― 7 min lire
Un coup d'œil sur les nouvelles méthodes pour comprendre les discours qui se chevauchent pendant les conversations.
― 9 min lire
Une nouvelle méthode améliore la conversion vocale entre les langues tout en préservant les traits du locuteur.
― 5 min lire
Une revue de comment la sélection des données améliore la performance des modèles linguistiques.
― 7 min lire
Un nouveau cadre améliore la connexion entre les visages et les voix, surtout dans des environnements bruyants.
― 6 min lire
Une nouvelle méthode améliore la précision de la localisation sonore tout en garantissant la confidentialité des données.
― 5 min lire
Une nouvelle méthode pour générer de la parole accentuée en utilisant la translittération du texte.
― 8 min lire
E1 TTS transforme le texte en parole naturelle plus rapidement et plus efficacement.
― 6 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
― 6 min lire
Présentation d'un nouveau modèle et d'une référence pour évaluer les tâches multi-audio.
― 7 min lire
Une nouvelle méthode améliore la clarté de la parole en utilisant des infos visuelles de l'environnement.
― 6 min lire
Découvre comment le TTS émotionnel change la communication avec les machines, les rendant plus proches.
― 7 min lire