Améliorer la segmentation des instances alimentaires avec un étiquetage intelligent
Un nouveau cadre réduit les coûts de labellisation manuelle dans la segmentation d'images alimentaires.
― 8 min lire
Table des matières
La segmentation d'instance alimentaire est super importante pour savoir combien de nourriture il y a sur une assiette à partir d'une photo. Récemment, les méthodes d'apprentissage profond ont été vraiment efficaces pour segmenter les images rapidement et précisément. Cependant, ces méthodes ont besoin de beaucoup de données, et collecter et étiqueter ces données peut coûter cher. Cet article présente une nouvelle méthode pour améliorer la performance du modèle tout en dépensant moins pour l'étiquetage des données.
Le nouveau système se concentre sur le fait d'identifier à quel point il est difficile d’étiqueter de nouveaux échantillons avant qu'ils ne soient envoyés pour l'étiquetage. Ça se fait avec un modèle qui prédit la difficulté des échantillons non étiquetés. La collecte de données se fait en plusieurs étapes, où chaque étape a un nouveau lot d'échantillons. Le budget d'étiquetage est utilisé principalement sur les échantillons les plus difficiles à étiqueter. Certains des échantillons plus faciles se verront attribuer des Pseudo-étiquettes pour aider à former le modèle. L'idée est d'utiliser un mélange d'étiquettes réelles et générées par le modèle pour améliorer la précision du Modèle de segmentation.
Aperçu de la segmentation d'instance alimentaire
La segmentation d'instance est une tâche clé dans la vision par ordinateur avec de nombreuses utilisations, comme estimer les tailles de portions de nourriture, détecter du texte et surveiller des véhicules. Différents réseaux d'apprentissage profond ont été créés pour gérer ces tâches. Quelques méthodes populaires incluent Mask R-CNN et CenterMask. Bien que ces techniques soient efficaces en termes de rapidité et de qualité, elles nécessitent souvent beaucoup d'annotations manuelles, ce qui peut être long et coûteux.
Créer des masques de segmentation précis pour les images alimentaires demande beaucoup d'efforts. La plupart des méthodes actuelles visent à réduire le besoin en données manuelles. Elles utilisent divers niveaux d'informations, des catégories d'images plus larges aux contours et formes plus détaillés. Cependant, ces méthodes posent aussi un défi. Utiliser des formes de données plus simples peut donner des segmentations moins précises, tandis que des annotations plus détaillées demandent plus de temps à produire.
Dans notre nouvelle approche, nous introduisons un cadre qui choisit les échantillons les plus difficiles pour une annotation manuelle, tout en générant des pseudo-étiquettes de haute qualité pour les échantillons restants. L'objectif est d'équilibrer la qualité avec la quantité de travail à fournir.
Configuration du cadre
Le cadre est basé sur l'évaluation de la difficulté des nouveaux échantillons. Lorsqu'un nouveau lot de données est collecté, le système utilise un modèle pour prédire à quel point chaque échantillon sera difficile pour le dernier modèle de segmentation. En général, chaque nouveau lot comprendra un mélange d'échantillons faciles, modérés et difficiles.
L'approche se concentre sur l'utilisation des échantillons les plus difficiles pour le marquage manuel. Après avoir étiqueté les échantillons les plus difficiles, les échantillons plus faciles peuvent être utilisés pour produire des pseudo-étiquettes pour l'entraînement. Ce processus est répété chaque fois qu'un nouveau lot est collecté.
Techniques connexes
Les modèles de segmentation en apprentissage profond actuels se répartissent en deux catégories principales : ceux qui reposent sur la génération de zones proposées (comme Mask R-CNN) et ceux qui regroupent des caractéristiques similaires (comme les méthodes de clustering). Ce cadre utilise une approche de clustering connue sous le nom de Terrace. Cette méthode fonctionne bien dans le domaine de la segmentation alimentaire et permet à notre modèle de maintenir un niveau élevé de qualité de segmentation.
De plus, des stratégies d'apprentissage semi-supervisé ont été proposées pour améliorer la performance tout en réduisant la charge de travail pour les annotateurs humains. Dans ces méthodes, un petit nombre d'échantillons reçoit des étiquettes manuelles, tandis que le modèle génère des pseudo-étiquettes pour les données non étiquetées restantes. Bien que cette méthode puisse améliorer les résultats, il est important de s'assurer que la qualité des étiquettes générées est élevée.
En outre, des techniques d'inférence d'appartenance peuvent aider à déterminer si un nouvel échantillon est similaire aux données déjà vues. Cela peut être utile pour filtrer les échantillons déjà utilisés.
Cadre d'apprentissage incrémental
Le système proposé connecte les différentes étapes de la collecte et de l'étiquetage des données. Pendant chaque étape, le système collecte et traite de nouveaux échantillons pour déterminer leurs niveaux de difficulté. Le processus inclut le stockage des échantillons non étiquetés, des échantillons étiquetés et des modèles utilisés pour l'étiquetage.
Au fur et à mesure que de nouveaux lots sont collectés, le système les fusionne avec les données existantes. Chaque échantillon est traité à l'aide du dernier modèle pour générer des labels. En fonction de ce traitement, un score de difficulté est calculé pour chaque échantillon. Les échantillons jugés trop faciles se voient attribuer des pseudo-étiquettes, tandis que les échantillons les plus difficiles vont à la main-d'œuvre pour une annotation manuelle.
Conception de l'expérience
Le cadre a été testé en utilisant quatre ensembles d'images de nourriture distincts : Dimsum, Sushi, Cookie et UECFoodPixComp. Pour assurer des tests équitables, chaque ensemble de données a été divisé en plusieurs lots contenant un nombre similaire d'articles alimentaires. L'objectif était de voir comment le cadre d'apprentissage incrémental fonctionnait avec un Étiquetage manuel limité.
Critères d'évaluation
La performance du modèle de segmentation a été évaluée à l'aide d'un indicateur connu sous le nom de Qualité Panoptique (PQ). Cet indicateur mesure la qualité de la sortie de segmentation.
En plus, la précision du modèle d'évaluation de la difficulté a été mesurée en vérifiant à quel point les scores de difficulté prédits étaient proches des scores réels.
Résultats des expériences
Différentes stratégies d'échantillonnage ont été évaluées pour voir comment elles impactaient la performance de segmentation. Les expériences ont montré que se concentrer sur les échantillons les plus difficiles entraînait systématiquement de meilleures performances de segmentation par rapport à des stratégies d'échantillonnage aléatoires ou plus faciles.
Le modèle d'évaluation de la difficulté a montré un taux d'erreur relativement bas, ce qui suggère qu'il était efficace pour prédire à quel point un échantillon serait difficile. Le modèle a pu identifier des échantillons avec des contours obscurcis ou des éléments qui se chevauchent, qui sont traditionnellement plus difficiles à segmenter.
La relation entre la qualité et le nombre de pseudo-étiquettes a aussi été explorée. Un équilibre a été trouvé entre accepter des étiquettes de qualité inférieure pour utiliser plus d'échantillons versus être plus sélectif et n'utiliser que des étiquettes de haute qualité pour l'entraînement.
En comparant différentes stratégies d'apprentissage incrémental, la nouvelle méthode a surpassé à la fois les techniques d'échantillonnage aléatoire et difficile. L'approche qui combinait les avantages de l'échantillonnage difficile et des pseudo-étiquettes précises a montré la plus grande amélioration des performances.
Comparaison des efforts d'annotation
Enfin, les performances de la méthode proposée ont été comparées à celles des approches traditionnelles utilisant une annotation manuelle complète. Les résultats indiquaient qu'avec même une fraction de l'effort d'étiquetage manuel, l'approche proposée pouvait atteindre des résultats similaires à ceux des modèles entièrement annotés.
Cela met en lumière les avantages potentiels du nouveau cadre, qui permet une réduction significative du temps et des ressources nécessaires pour étiqueter tout en atteignant des performances compétitives.
Conclusion
En résumé, le cadre d'apprentissage incrémental proposé pour la segmentation d'instance alimentaire réduit efficacement le besoin d'un étiquetage manuel étendu. En introduisant un modèle d'évaluation de la difficulté, il identifie les échantillons les plus difficiles à étiqueter et génère des pseudo-étiquettes utiles à partir des plus faciles. Le cadre a montré de meilleures performances par rapport aux méthodes existantes et offre une solution viable pour déployer des modèles de segmentation alimentaire dans des applications du monde réel. Avec un développement et des tests supplémentaires, cette approche peut simplifier le processus d'étiquetage de données et produire des résultats de segmentation précis plus efficacement.
Titre: Incremental Learning on Food Instance Segmentation
Résumé: Food instance segmentation is essential to estimate the serving size of dishes in a food image. The recent cutting-edge techniques for instance segmentation are deep learning networks with impressive segmentation quality and fast computation. Nonetheless, they are hungry for data and expensive for annotation. This paper proposes an incremental learning framework to optimize the model performance given a limited data labelling budget. The power of the framework is a novel difficulty assessment model, which forecasts how challenging an unlabelled sample is to the latest trained instance segmentation model. The data collection procedure is divided into several stages, each in which a new sample package is collected. The framework allocates the labelling budget to the most difficult samples. The unlabelled samples that meet a certain qualification from the assessment model are used to generate pseudo-labels. Eventually, the manual labels and pseudo-labels are sent to the training data to improve the instance segmentation model. On four large-scale food datasets, our proposed framework outperforms current incremental learning benchmarks and achieves competitive performance with the model trained on fully annotated samples.
Auteurs: Huu-Thanh Nguyen, Yu Cao, Chong-Wah Ngo, Wing-Kwong Chan
Dernière mise à jour: 2023-06-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.15910
Source PDF: https://arxiv.org/pdf/2306.15910
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.