Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

ALiSNet : Une nouvelle façon de segmenter les figures humaines

ALiSNet propose une segmentation humaine précise pour le e-commerce de mode sur les appareils mobiles.

― 8 min lire


ALiSNet : SegmentationALiSNet : SegmentationHumaine Simplifiéesegmentation du e-commerce de mode.Un modèle léger transforme la
Table des matières

La segmentation humaine, c'est le truc qui consiste à identifier et séparer les gens de leur arrière-plan dans les images. Cette technologie a plein d'utilités, surtout dans le e-commerce de la mode, où connaître la morphologie d'une personne peut aider à proposer la bonne taille ou coupe de vêtements. Cet article parle d'une nouvelle méthode appelée ALiSNet, conçue pour une segmentation humaine précise et légère sur les Appareils mobiles. L'objectif est de créer une solution qui garde les données des utilisateurs privées tout en fournissant des résultats fiables.

L'importance de l'estimation de la Forme du corps

Dans le secteur de la mode, estimer avec Précision la forme du corps d'une personne à partir de photos peut déboucher sur plusieurs applications utiles. Avec la bonne technologie, les utilisateurs peuvent obtenir des recommandations personnalisées de taille et de coupe, ou essayer des vêtements virtuellement. C'est super utile parce que les gens galèrent souvent à trouver des vêtements qui leur vont bien. Une représentation précise de la forme du corps est essentielle pour donner de bonnes recommandations.

Les smartphones sont des outils géniaux pour capturer des images de personnes, ce qui facilite la collecte de données tout en respectant la vie privée. Traiter les images directement sur le dispositif aide à protéger les infos des utilisateurs. Beaucoup de solutions de segmentation humaine existantes sont propriétaires et ne peuvent pas être adaptées à des besoins spécifiques, comme estimer la forme du corps avec précision. ALiSNet a été créé pour combler ce vide.

Conception du modèle

ALiSNet a été créé en simplifiant un modèle connu sous le nom de Semantic FPN avec PointRend. Le nouveau modèle est spécifiquement optimisé sur un ensemble de données soigneusement sélectionné d'images humaines de haute qualité. Le résultat est un modèle qui est à la fois petit-seulement 4 Mo-et très précis, atteignant un score moyen d'Intersection over Union (mIoU) de 97,6%. Ce score mesure à quel point la segmentation prédite correspond aux vraies formes de corps dans l'ensemble de données. Pour comparer, d'autres solutions disponibles comme la segmentation de personnes d'Apple ont une précision plus basse de 94,4% mIoU.

Défis dans la mode en ligne

La précision de la segmentation est essentielle pour les boutiques de mode en ligne. Les utilisateurs doivent prendre des photos de leurs corps, et la qualité de ces images peut varier. De petites erreurs dans la segmentation peuvent entraîner des erreurs significatives dans les recommandations de taille. Par exemple, si une erreur de segmentation se produit près de la poitrine, cela peut fausser la mesure nécessaire pour trouver la bonne taille.

Pour obtenir une meilleure précision, il serait idéal que les utilisateurs portent des vêtements ajustés lorsqu'ils prennent des photos. Cela facilite la tâche de segmentation mais soulève des préoccupations en matière de vie privée puisque les utilisateurs pourraient se sentir mal à l'aise de révéler trop de leur forme corporelle. Donc, le traitement d'image sur le dispositif d'ALiSNet est un avantage puisqu'il garantit que les données des utilisateurs ne sont pas envoyées à des serveurs externes.

Préparation des données

Pour entraîner le modèle ALiSNet, il est crucial d'obtenir des données précises sur la forme du corps. Cela implique de rassembler des annotations de corps réelles, en particulier autour des contours, car elles jouent un rôle important dans la prédiction efficace des formes corporelles.

Bien qu'il existe de nombreuses méthodes de segmentation mobile prêtes à l'emploi, elles ne sont pas assez flexibles pour être entraînées sur des ensembles de données spécifiques, c'est pourquoi nous avons choisi de concevoir un nouveau modèle. On a utilisé des ensembles de données disponibles publiquement mais on s'est rendu compte qu'ils manquaient souvent de détails fins nécessaires pour notre application. Pour y remédier, on a combiné ces ensembles de données avec un plus petit, composé d'images de haute qualité capturées dans des conditions contrôlées.

Création d'un ensemble de données de haute qualité

L'ensemble de données supplémentaire a été créé à l'aide d'une application mobile personnalisée qui guidait les utilisateurs pour prendre des photos de face et de profil. Cela garantissait que les images seraient cohérentes et adaptées à la formation. L'application utilisait des modèles d'estimation de pose en temps réel pour aider les utilisateurs à bien cadrer leurs photos.

Au total, cet ensemble de données de haute qualité comprenait des milliers d'images avec des annotations de segmentation précises. Avoir des données fiables a permis au modèle d'apprendre efficacement et d'améliorer ses performances. Les annotations ont été vérifiées par des équipes d'experts pour maintenir de hauts standards.

Entraînement du modèle

L'entraînement de notre modèle a impliqué plusieurs étapes pour améliorer ses performances tout en le gardant léger. Pour la première phase, on a utilisé un ensemble de données à grande échelle appelé MS COCO pour préformer ALiSNet. Cet ensemble de données inclut une grande variété d'images avec différents objets et personnes, mais on a spécifiquement sélectionné des images avec des gens.

Dans la phase suivante, on a affiné le modèle sur notre ensemble de données de haute qualité. L'affinage permet au modèle de s'adapter aux exigences spécifiques d'estimation des formes corporelles, améliorant considérablement la précision.

Configuration expérimentale

Pour l'implémentation, on a utilisé un cadre qui s'intègre bien avec la technologie mobile. Cela permet au modèle de fonctionner efficacement sur les appareils mobiles. Le modèle a été conçu pour être efficace même avec peu de ressources, ce qui le rend accessible aux utilisateurs au quotidien.

Lors des tests du modèle, on a regardé à quelle vitesse il pouvait traiter les images et à quel point il pouvait prédire les formes corporelles avec précision. Les mesures qu'on a utilisées incluaient les scores mIoU et les performances en temps d'exécution sur divers appareils mobiles.

Résultats

Pendant les tests, ALiSNet a surpassé d'autres méthodes de segmentation existantes comme BlazePose et la segmentation de personnes d'Apple en termes de précision. Cela a été évident dans divers scénarios où différents styles et angles ont été utilisés. Les résultats ont montré qu'ALiSNet pouvait segmenter les formes corporelles plus précisément, offrant de meilleures recommandations aux utilisateurs.

Performance en temps d'exécution

En termes de rapidité, ALiSNet fonctionnait efficacement sur la plupart des appareils mobiles modernes. Dans des conditions normales, il traitait les images en moins de deux secondes, ce qui est assez rapide et adapté aux applications interactives.

Limitations

Malgré ses avantages, ALiSNet n'est pas sans défis. Dans les cas où l'arrière-plan est complexe ou les images sont mal éclairées, le modèle peine encore à fournir une segmentation précise. Ces problèmes sont courants dans les tâches de vision par ordinateur et sont des domaines à améliorer à l'avenir.

Directions futures

L'amélioration continue d'ALiSNet se concentre sur l'amélioration des performances dans des conditions difficiles. Cela pourrait impliquer de s'entraîner sur des ensembles de données supplémentaires ou d'améliorer le modèle pour mieux gérer divers arrière-plans. En plus, il y a potentiel pour de nouvelles fonctionnalités qui pourraient améliorer l'expérience utilisateur dans le e-commerce de la mode.

Les chercheurs vont continuer à explorer des moyens d'élargir les fonctionnalités actuelles du modèle, y compris l'exploration de différentes méthodes de collecte de données et le perfectionnement de l'algorithme.

Conclusion

Le développement d'ALiSNet représente un pas en avant significatif dans la technologie de segmentation humaine, surtout pour les applications de e-commerce de la mode. En fournissant une solution légère et précise, cela permet aux utilisateurs de prendre le contrôle de leurs expériences de shopping en ligne tout en s'assurant que leur vie privée reste protégée. Au fur et à mesure que ce domaine de recherche avance, on peut s'attendre à voir encore plus d'applications innovantes qui profitent aux utilisateurs dans l'industrie de la mode et au-delà.

Source originale

Titre: ALiSNet: Accurate and Lightweight Human Segmentation Network for Fashion E-Commerce

Résumé: Accurately estimating human body shape from photos can enable innovative applications in fashion, from mass customization, to size and fit recommendations and virtual try-on. Body silhouettes calculated from user pictures are effective representations of the body shape for downstream tasks. Smartphones provide a convenient way for users to capture images of their body, and on-device image processing allows predicting body segmentation while protecting users privacy. Existing off-the-shelf methods for human segmentation are closed source and cannot be specialized for our application of body shape and measurement estimation. Therefore, we create a new segmentation model by simplifying Semantic FPN with PointRend, an existing accurate model. We finetune this model on a high-quality dataset of humans in a restricted set of poses relevant for our application. We obtain our final model, ALiSNet, with a size of 4MB and 97.6$\pm$1.0$\%$ mIoU, compared to Apple Person Segmentation, which has an accuracy of 94.4$\pm$5.7$\%$ mIoU on our dataset.

Auteurs: Amrollah Seifoddini, Koen Vernooij, Timon Künzle, Alessandro Canopoli, Malte Alf, Anna Volokitin, Reza Shirvany

Dernière mise à jour: 2023-04-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.07533

Source PDF: https://arxiv.org/pdf/2304.07533

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires