Estimation des calories à partir d'images de nourriture : Une nouvelle approche
Un modèle utilise des images pour estimer les calories, améliorant les connaissances pour bien manger.
― 7 min lire
Table des matières
Alors que de plus en plus de gens luttent contre l'obésité et des problèmes de santé qui y sont liés, il y a un besoin croissant pour chacun de prendre conscience de ce qu'il mange. Bien que la nutrition puisse être compliquée, l'idée simple est que gérer son poids revient à équilibrer les Calories consommées et celles dépensées. Pour beaucoup, calculer les calories des repas faits maison est difficile, et obtenir des infos nutritionnelles pour la nourriture de restaurant est souvent impossible. Ça complique le suivi des calories ingérées.
Pour aider avec ça, on propose un modèle qui peut estimer le nombre de calories dans un plat juste à partir d'une seule image de la nourriture. Mais c'est pas facile pour plusieurs raisons :
- Le compte des calories dépend pas seulement du type de nourriture, mais aussi de la quantité, ce qui est dur à voir sur une seule image.
- Les photos de nourriture viennent de caméras différentes, ce qui fait varier la qualité, les angles et l'éclairage.
- Y'a pas beaucoup de datasets avec des images de nourriture et leurs comptages de calories.
Pour surmonter ces défis, notre modèle doit apprendre à extraire des caractéristiques qui fonctionnent pour n'importe quel type de nourriture, arrière-plan ou quantité. Dans nos travaux précédents, on a essayé plusieurs étapes de Pré-entraînement, comme la classification des aliments et l'estimation de la masse, pour aider le modèle à mieux prédire les calories. Maintenant, on se demande si utiliser des Cartes de saillance humaines peut aider à entraîner le modèle à se concentrer sur les zones les plus caloriques dans les images de nourriture.
Questions de recherche
Pour guider notre enquête, on a formé quatre questions principales de recherche :
- Les cartes de saillance humaines améliorent-elles la performance de l'estimation des calories ?
- Les tâches de pré-entraînement peuvent-elles améliorer les modèles qui utilisent des cartes de saillance ?
- Combiner les meilleurs modèles en un seul peut-il donner de meilleurs résultats ?
- Comment notre meilleur modèle se compare-t-il avec les résultats publiés précédemment sur un dataset de test ?
Design de l'expérience
Pour répondre à ces questions, on a mis en place quatre expériences différentes :
- Évaluation des cartes de saillance : On a vérifié si les cartes de saillance humaines aidaient à améliorer l'estimation des calories en comparant deux types de modèles, un utilisant ces cartes et l'autre sans. 
- Utilisation des tâches de pré-entraînement : On a testé si entraîner les modèles sur la classification des aliments et l'estimation de la masse d'abord donnerait de meilleurs résultats que de commencer avec des poids d'un gros dataset connu sous le nom d'ImageNet. 
- Création d'un modèle d'ensemble : On a pris les deux modèles les plus performants et on les a combinés pour voir si ça donnerait de meilleures prédictions. 
- Comparaison avec des modèles précédents : On a pris le meilleur modèle qu'on a trouvé et on l'a testé sur le dataset Nutrition5k pour voir comment il se positionnait par rapport aux résultats publiés. 
On a utilisé quatre datasets pour nos expériences. L'accent principal était mis sur la prédiction de calories en utilisant un dataset appelé MenuMatch pour l'entraînement et Nutrition5k comme ensemble de test. Deux autres datasets ont été utilisés pour des tâches liées à la classification des aliments et à l'estimation de la masse alimentaire.
Modèles neuronaux
On a utilisé deux types principaux de modèles neuronaux :
ResNet
ResNet est un modèle d'apprentissage profond qui utilise une structure inspirée du cerveau humain, ce qui lui permet de sauter certaines couches de traitement. Ça imite comment nos cerveaux traitent l'info.
Xception
Xception est un autre modèle qui utilise une méthode unique de gestion des données appelée convolution séparablement profonde. Ça lui permet d'apprendre avec moins de paramètres tout en restant efficace.
Les deux modèles ont été adaptés pour prédire les comptes de calories en ajoutant une couche finale spécifique.
Processus de formation
D'abord, on a entraîné les modèles à reconnaître les catégories alimentaires. Ça impliquait d'utiliser une forme de fonction de perte qui mesure comment le modèle se débrouille. Pour les tâches d'estimation du volume alimentaire et de prédiction des calories, un type différent de mesure d'erreur a été utilisé.
Pour intégrer les cartes de saillance humaines dans l'estimation des calories, on a créé ces cartes en demandant à des travailleurs de souligner les parties les plus caloriques des images de nourriture. Ces contours ont ensuite été convertis en cartes de chaleur, mettant en évidence les zones importantes.
Dans notre formation, on a comparé les zones de focus du modèle aux zones créées par des humains pour s'assurer que le modèle apprenait à prioriser les bonnes parties de l'image.
Résultats
On a regardé les résultats de nos expériences basées sur nos questions de recherche :
1. Cartes de saillance humaines et performance
On a trouvé que les modèles utilisant des cartes de saillance humaines montraient de meilleurs résultats que ceux qui n'en utilisaient pas. En moyenne, il y avait une amélioration notable de l'exactitude de l'estimation des calories quand on utilisait les cartes de saillance pendant l'entraînement.
2. Tâches de pré-entraînement
Bien qu'on s'attendait à ce que le pré-entraînement améliore la performance, il s'est avéré que commencer avec des poids d'ImageNet n'était pas mauvais pour l'exactitude. Bien que tous les modèles pré-entraînés aient fait mieux que la base, aucun n'a pu surpasser le meilleur modèle utilisant des cartes de saillance humaines.
3. Performance du modèle d'ensemble
Étonnamment, combiner les deux meilleurs modèles en un ensemble n'a pas donné de meilleurs résultats que le meilleur modèle individuel.
4. Comparaison avec Nutrition5k
En testant contre le dataset Nutrition5k, notre meilleur modèle n'a pas surpassé les résultats publiés précédemment, ce qui était inattendu puisque nous avons atteint une plus grande exactitude sur d'autres datasets.
Défis et observations
Tout au long des expériences, on a souvent noté un taux d'erreur moyen plus bas sur les données de validation par rapport aux données de test réelles. Ça indique des différences dans les types de nourriture dans chaque dataset, ce qui a probablement affecté la capacité du modèle à prédire les comptes de calories.
Fait intéressant, même en utilisant le dataset Nutrition5k pour l'entraînement et les tests, on n’a pas réalisé de meilleurs résultats qu’avec des modèles entraînés sur des types de nourriture complètement différents. Ça soulève des questions sur la diversité du dataset et les angles des images de nourriture, ce qui nous amène à considérer que de petits ajustements, comme faire pivoter ou modifier les images, pourraient améliorer les résultats dans les expériences futures.
Conclusion
Dans l'ensemble, utiliser l'insight humain pour améliorer les modèles de prédiction de calories a montré son potentiel, avec une diminution de l'erreur absolue moyenne dans les estimations. Les résultats suggèrent que guider le modèle à se concentrer sur des zones spécifiques peut mener à de meilleures prédictions. Cependant, des recherches supplémentaires sont nécessaires pour affiner les méthodes d'entraînement qui équilibrent la performance à travers des datasets variés.
Malgré les défis rencontrés, l'erreur moyenne du modèle d'environ 200 calories indique qu'il peut encore fournir des estimations raisonnables des calories pour les repas, ce qui pourrait aider les gens à surveiller leur consommation alimentaire. Les efforts futurs pourraient se concentrer sur l'approfondissement de l'exploration de la manière d'incorporer efficacement les insights humains dans ces modèles pour améliorer l'exactitude et la fiabilité.
Titre: Leveraging Human Salience to Improve Calorie Estimation
Résumé: The following paper investigates the effectiveness of incorporating human salience into the task of calorie prediction from images of food. We observe a 32.2% relative improvement when incorporating saliency maps on the images of food highlighting the most calorie regions. We also attempt to further improve the accuracy by starting the best models using pre-trained weights on similar tasks of mass estimation and food classification. However, we observe no improvement. Surprisingly, we also find that our best model was not able to surpass the original performance published alongside the test dataset, Nutrition5k. We use ResNet50 and Xception as the base models for our experiment.
Auteurs: Katherine R. Dearstyne, Alberto D. Rodriguez
Dernière mise à jour: 2023-06-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.09527
Source PDF: https://arxiv.org/pdf/2306.09527
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.