Un nouveau système aide les personnes aveugles à mieux comprendre les courtes vidéos.
― 6 min lire
La science de pointe expliquée simplement
Un nouveau système aide les personnes aveugles à mieux comprendre les courtes vidéos.
― 6 min lire
Des approches innovantes améliorent l'accès à l'éducation pour les communautés mal desservies.
― 10 min lire
De nouvelles techniques améliorent les systèmes ASR pour une meilleure reconnaissance de la parole longue.
― 6 min lire
La simplification du texte aide à améliorer l'accès à l'information pour différents lecteurs.
― 7 min lire
Une étude sur comment rendre les images scientifiques accessibles pour ceux qui ont des problèmes de vision des couleurs.
― 7 min lire
Ce projet améliore la traduction vocale en temps réel et les systèmes de sous-titrage automatiques.
― 5 min lire
MAIDR aide les utilisateurs aveugles à accéder aux visualisations de données grâce au son, au toucher et au texte.
― 10 min lire
Explorer les avancées dans le sous-titrage audio automatisé et son impact sur l'accessibilité.
― 6 min lire
Chart4Blind transforme des graphiques complexes en formats accessibles pour les utilisateurs malvoyants.
― 8 min lire
Un aperçu de comment la technologie AVQA répond aux questions en utilisant la vidéo et l'audio.
― 8 min lire
Des recherches montrent les préférences des utilisateurs de BLV pour accéder aux vidéos.
― 7 min lire
Une méthode pour aider les malvoyants à reconnaître des sons en réalité mixte.
― 6 min lire
Un nouveau modèle améliore l'efficacité de la conversion de la parole en texte dans les applications en temps réel.
― 8 min lire
Notre modèle génère du texte d'indice pour améliorer l'accessibilité pour les utilisateurs malvoyants.
― 5 min lire
De nouvelles méthodes améliorent l'accessibilité et la précision des sous-titres audio.
― 7 min lire
L'app RASSAR améliore la sécurité et l'accessibilité à la maison grâce à une technologie avancée.
― 6 min lire
De nouvelles méthodes visent à améliorer la communication pour la communauté sourde.
― 6 min lire
Une méthode pour améliorer la précision de la reconnaissance vocale en kannada et en télougou.
― 10 min lire
Une nouvelle approche pour créer des légendes plus informatives pour les images.
― 10 min lire
RALL-E améliore la synthèse texte-parole pour un discours plus clair et naturel.
― 6 min lire
Une nouvelle méthode améliore la clarté et l'expressivité en langue des signes.
― 8 min lire
Présentation d'une nouvelle approche pour améliorer l'analyse de la mise en page des textes dans les images.
― 7 min lire
Apprends comment améliorer les agents UI peut créer de meilleures expériences utilisateur.
― 9 min lire
Une nouvelle méthode crée directement des sous-titres, améliorant l'accessibilité pour des publics variés.
― 10 min lire
Examiner comment la technologie peut mieux exprimer les émotions dans la communication.
― 9 min lire
De nouvelles méthodes améliorent la façon dont l'IA relie le texte et les images pour de meilleurs résultats.
― 10 min lire
Une étude révèle les frustrations et les préférences des utilisateurs concernant les CAPTCHAs sur les sites web.
― 10 min lire
Présentation d'un modèle qui génère de l'audio et de la vidéo synchronisés avec des niveaux de bruit mélangés.
― 7 min lire
Ce système aide les personnes malvoyantes à faire leurs courses plus indépendamment grâce à une canne robotique.
― 7 min lire
Une nouvelle méthode améliore la façon dont les machines transmettent des infos visuelles aux humains.
― 8 min lire
Seed-TTS crée une voix réaliste à partir de texte pour différentes applications.
― 6 min lire
Une nouvelle méthode crée de meilleures sous-titres pour les vidéos en se concentrant sur les récits et la causalité.
― 7 min lire
Une nouvelle approche pour la légende audio réduit la dépendance aux données appairées.
― 7 min lire
Une nouvelle approche pour prédire les changements d'UI des applis mobiles en fonction des actions des utilisateurs.
― 6 min lire
Utiliser le son pour rendre les données astronomiques plus accessibles et engageantes pour tout le monde.
― 10 min lire
Un projet mélange danse et technologie pour s'exprimer de manière créative.
― 8 min lire
ReadCtrl permet aux modèles de langue d’adapter la complexité du texte aux capacités des lecteurs.
― 6 min lire
GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.
― 6 min lire
Examiner le besoin de contexte dans une traduction précise en langue des signes.
― 7 min lire
Un système combine audio et vidéo pour améliorer la précision de la détection des intervenants.
― 6 min lire