Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Rendre le manga accessible à tous

Un système pour créer des transcriptions de texte à partir de mangas pour les lecteurs malvoyants.

― 8 min lire


Manga pour tout le mondeManga pour tout le mondemalvoyants.Transcription de manga pour les
Table des matières

Le manga, un style de bande dessinée qui vient du Japon, a pris une ampleur énorme à travers le monde. Son style artistique unique et ses récits attirent des lecteurs de cultures et d'horizons différents. Cependant, beaucoup de personnes malvoyantes trouvent ça compliqué de profiter du manga parce que ça repose beaucoup sur les images et les visuels. Pour rendre le manga accessible à tous, on se concentre sur la création d'un moyen de générer automatiquement des transcriptions texte à partir des mangas, ce qui permettra aux personnes malvoyantes de vivre les histoires.

Le Problème

Lire un manga implique plein d'éléments visuels, comme des cases (les boîtes où l'histoire est racontée), des blocs de texte (les mots) et des personnages (les gens ou les créatures dans le manga). Pour quelqu'un qui ne peut pas voir ces visuels, c'est difficile de suivre l'histoire. Dans des études récentes, beaucoup de personnes malvoyantes ont exprimé leur envie de savoir plus sur les scènes, les dialogues et les émotions des personnages. Ça montre qu'il y a besoin d'un système qui puisse comprendre le manga et fournir des transcriptions automatiquement.

Notre Approche

Pour relever le défi de traduire le contenu des mangas en formats accessibles, on a développé un modèle appelé Magi. Ce modèle fonctionne en détectant différents composants dans une page de manga, comme les cases, les blocs de texte et les personnages. Ensuite, il regroupe les personnages qui sont les mêmes et associe les dialogues aux bons intervenants. Enfin, il remet tout dans le bon ordre de lecture pour générer une transcription claire.

Comment Magi Fonctionne

Magi utilise des techniques modernes de vision par ordinateur pour analyser une page de manga et réaliser plusieurs tâches :

  1. Détection : D'abord, il identifie les cases, les blocs de texte et les cases de personnages. Cette étape aide notre modèle à comprendre sur quels éléments de la page il doit se concentrer.

  2. Clustering : Ensuite, Magi regroupe les cases de personnages par identité. Ça veut dire que s'il y a plusieurs cases du même personnage, il les étiquettera comme un seul personnage au lieu de les traiter comme différents.

  3. Association de texte : Le modèle associe aussi les dialogues aux personnages qui parlent. Cette connexion lui permet de savoir quel personnage dit quoi.

  4. Génération de Transcription : Enfin, en utilisant les infos des étapes précédentes, Magi génère une transcription qui remet les dialogues dans le bon ordre.

Les Défis

Créer un modèle pour comprendre le manga, c'est pas simple. Il y a plein de défis à relever :

  • Variété de Styles Artistiques : Les artistes de manga ont des styles différents, et les personnages peuvent avoir l'air différent selon les angles ou être partiellement couverts, ce qui complique la reconnaissance par le modèle.

  • Placement du Texte : Parfois, le texte peut être dans des bulles de dialogue qui peuvent avoir des queues pointant vers le personnage qui parle. D'autres fois, ce n'est pas le cas, ce qui complique la tâche de lier le texte à la parole.

  • Direction de Lecture : Le manga se lit généralement de droite à gauche et de haut en bas, ce qui est différent des bandes dessinées occidentales. Cet ordre de lecture unique doit être pris en compte lors de la génération des transcriptions.

Objectifs

Notre but principal est de générer une transcription page par page des dialogues trouvés dans les mangas. Ça veut dire que n'importe qui, peu importe ses capacités visuelles, peut profiter des histoires racontées. Pour atteindre cet objectif, on a mis en place un processus en deux étapes : détection (trouver les cases, le texte et les personnages) et association (lier le texte aux personnages).

Comment On A Réussi

Pour atteindre notre objectif, on a créé un système qui utilise une structure de type graphe. Dans cette structure, chaque caractéristique détectée, comme une case ou un personnage, est représentée comme un nœud. Les liens entre ces nœuds représentent des relations, comme quel personnage dit quoi. Ça facilite le traitement et la génération correcte de la transcription.

Détection

Détecter les cases, le texte et les personnages est crucial. On a appliqué des méthodes pour identifier ces composants dans une page de manga avec précision. La partie difficile réside dans les associations. On avait besoin d'un moyen pour s'assurer que les personnages étaient regroupés même s'ils apparaissaient différemment à travers les pages.

Association

Pour l'association, on a vérifié chaque case de personnage et chaque case de texte pour déterminer si elles étaient liées. Par exemple, on cherche des connexions entre les cases de personnage apparaissant dans la même case ou on associe les blocs de texte à la case de personnage la plus proche en fonction de leur emplacement sur la page.

Création d'un Ensemble de Données

Pour entraîner notre système, on avait besoin d'un ensemble de données avec des exemples de pages de manga montrant du texte, des cases et des personnages. On a créé deux nouveaux ensembles de données pour notre travail :

  1. PopManga : Une collection de plus de 57 000 pages de manga connues pour leur narration complexe et leur art détaillé.

  2. Mangadex : Un ensemble de données plus grand contenant 1,5 million d'images de manga à travers différents genres et styles, utilisé pour le pré-entraînement de notre modèle.

Notre objectif était de fournir au modèle assez d'exemples pour qu'il puisse apprendre à reconnaître et traiter efficacement les pages de manga.

Entraînement du Modèle

L'entraînement du modèle a impliqué d'abord d'utiliser l'ensemble de données plus grand, puis de le perfectionner avec notre ensemble de données plus ciblé de PopManga. On a utilisé des techniques comme le fine-tuning, où on ajuste un modèle pré-entraîné pour améliorer sa performance sur nos tâches spécifiques.

Génération de Transcriptions

Une fois que le modèle détecte tous les composants nécessaires, générer la transcription implique :

  • Tri du Texte : On arrange les blocs de texte en fonction de l'ordre de lecture du manga, qui est différent de l'ordre de lecture typique de gauche à droite dans les textes occidentaux. Ça demande une analyse attentive de la mise en page pour assurer que le dialogue s'enchaîne correctement.

  • Reconnaissance Optique de Caractères (OCR) : Pour extraire les dialogues des blocs de texte, on utilise un modèle OCR entraîné qui lit les textes et les convertit en un format numérique.

En combinant ces étapes, on crée une transcription complète des dialogues de manga qui peut être appréciée par ceux qui ne peuvent pas voir les pages originales.

Résultats et Évaluation

Pour comprendre l'efficacité de notre méthode, on a évalué notre modèle par rapport à des méthodes existantes. On a comparé différentes tâches comme la détection de personnages, la détection de texte, la détection de cases et l'association des intervenants. Les résultats montrent que notre modèle a surpassé de nombreuses approches précédentes en étant capable de fournir des transcriptions précises et complètes.

Métriques de Performance

On a utilisé plusieurs métriques pour mesurer la performance de notre modèle, y compris :

  • Précision Moyenne : Pour déterminer à quel point notre modèle détecte divers éléments dans les pages de manga.

  • Qualité du Clustering : Évaluée sur la façon dont notre modèle regroupe les personnages en fonction de leurs apparences.

  • Précision de l'Association des Intervenants : On a vérifié à quel point le modèle associe bien les dialogues aux personnages qui parlent.

Directions Futures

Notre recherche ouvre la voie à d'autres avancées. Un domaine que l'on prévoit d'explorer est la combinaison de notre travail avec des modèles avancés de compréhension du langage. Ces modèles peuvent aider à fournir du contexte et améliorer ce que notre système peut inférer sur les dialogues.

Conclusion

En résumé, on a développé une méthode pour générer automatiquement des transcriptions à partir des pages de manga, rendant cet art aimé accessible aux personnes malvoyantes. Notre modèle, Magi, peut détecter, regrouper et associer les éléments clés dans un manga pour fournir une transcription claire des dialogues. On espère que ce travail pave la voie à des expériences plus inclusives dans les comics et le storytelling. Le chemin vers un manga entièrement accessible ne fait que commencer, et on est excités par les possibilités futures.

Source originale

Titre: The Manga Whisperer: Automatically Generating Transcriptions for Comics

Résumé: In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi.

Auteurs: Ragav Sachdeva, Andrew Zisserman

Dernière mise à jour: 2024-08-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.10224

Source PDF: https://arxiv.org/pdf/2401.10224

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires