Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique# Multimédia# Traitement de l'image et de la vidéo

Améliorer l'estimation des portions de nourriture avec des modèles 3D

Une nouvelle méthode améliore la précision du suivi alimentaire en utilisant des modèles 3D et des images 2D.

― 8 min lire


Modèles 3D pourModèles 3D pourl'estimation de lanourritureportions de nourriture.précision dans l'estimation desUne nouvelle méthode améliore la
Table des matières

Estimer combien de nourriture quelqu'un mange, c'est important pour encourager des habitudes alimentaires saines et comprendre sa santé personnelle. Les méthodes traditionnelles pour suivre la consommation alimentaire peuvent être compliquées. Elles reposent souvent sur la mémoire des gens concernant ce qu'ils ont mangé, ce qui peut mener à des infos inexactes. Grâce à la technologie, on a maintenant de meilleures façons d'estimer les tailles de portions, surtout grâce aux images prises avec des smartphones.

Défis dans l'estimation alimentaire

Bien que l'analyse d'images puisse faciliter le suivi de la consommation alimentaire, il y a encore des problèmes importants. Un souci majeur, c'est que les images prises avec des caméras ne montrent qu'une vue plate en 2D de la nourriture. Ça veut dire que des détails 3D importants sont perdus. Par exemple, si tu prends une photo d'un bol de soupe, tu peux pas savoir à quelle profondeur il est juste en regardant la photo. Pour résoudre ça, les chercheurs essaient d'utiliser des techniques qui analysent plusieurs images ou des infos de profondeur pour avoir une vue plus complète de la nourriture.

L'importance des modèles 3D

Les avancées dans la modélisation 3D peuvent nous aider à obtenir des infos plus précises sur la nourriture. Il y a des nouvelles bases de données avec des images 3D de divers aliments, qui offrent des ressources précieuses pour mieux estimer les tailles de portions. Pourtant, les techniques actuelles n'ont pas réussi à bien combiner ces modèles 3D avec des images 2D normales pour estimer les tailles de portions à partir d'une seule image.

Méthode proposée

Dans ce travail, une nouvelle méthode est introduite qui utilise des modèles alimentaires 3D tout en s'appuyant principalement sur des images 2D. L'idée principale est de recréer la scène dans un environnement de repas réel en utilisant des modèles 3D de nourriture. La méthode commence par estimer la position de la caméra et le placement de la nourriture dans l'image. En faisant ça, elle peut créer une version rendue de la nourriture qui correspond à la photo originale.

La méthode fonctionne en comparant l'espace que la nourriture occupe dans l'image 2D avec l'espace qu'elle occupe dans le modèle 3D. Comme ça, elle peut estimer efficacement à la fois le Volume de la nourriture et son contenu énergétique. La valeur énergétique est extraite en utilisant des données alimentaires d'une base de données nutritionnelle fiable.

Jeu de données SimpleFood45

Pour soutenir cette nouvelle approche, un nouveau jeu de données appelé SimpleFood45 a été créé. Ce jeu de données se compose d'images de 45 aliments différents pris sous différents angles et comprend des détails comme le volume et le contenu énergétique. Les photos ont été capturées avec un appareil photo de smartphone pour refléter une situation de repas normale.

Avantages par rapport aux méthodes existantes

Beaucoup de méthodes existantes pour estimer les portions alimentaires utilisent des réseaux de neurones complexes, qui nécessitent un entraînement intensif sur de grands ensembles de données. Ces modèles peuvent être difficiles à expliquer et peuvent ne pas bien fonctionner face à de nouvelles images alimentaires. Le cadre proposé offre une alternative plus simple et plus fiable. Il se concentre sur l'utilisation de la géométrie des aliments et des estimations des poses de la caméra et de la nourriture sans avoir besoin des configurations de réseau de neurones compliquées.

Aperçu du cadre

Le nouveau système est organisé en trois parties principales :

  1. Détection et segmentation d'objets : Cette partie traite l'image d'entrée pour identifier et délimiter les aliments qu'elle contient. Un modèle de réseau de neurones est utilisé ici pour générer un masque indiquant où se trouve la nourriture dans l'image.

  2. Estimation de pose : Une fois la nourriture détectée, l'étape suivante est d'estimer à la fois l'angle de la caméra et la position de la nourriture dans l'espace 3D. Cette info est cruciale car elle permet de créer une version 3D réaliste de la nourriture.

  3. Rendu : Enfin, cette partie utilise les positions estimées pour générer une image rendue de la nourriture. La taille de la nourriture dans cette version rendue est comparée à l'image originale pour aider à estimer son volume.

Limitations des approches existantes

Les approches actuelles pour estimer les tailles des portions alimentaires peuvent être classées en quatre types :

  1. Approche basée sur la stéréo : Cette méthode repose sur l'analyse de plusieurs images pour reconstruire une vue 3D de la nourriture. Elle nécessite souvent plusieurs images, ce qui la rend moins pratique dans des situations quotidiennes.

  2. Approche basée sur des modèles : Ces méthodes utilisent des formes 3D prédéfinies pour estimer le volume des aliments. Cependant, elles peuvent avoir du mal avec les variations alimentaires, ce qui entraîne des estimations de taille inexactes.

  3. Approche basée sur caméra de profondeur : Cela utilise des caméras spéciales pour créer des cartes de profondeur des aliments. Bien que cela soit efficace, ça nécessite un équipement de haute qualité et n'est pas toujours accessible à tous les utilisateurs.

  4. Approche d'apprentissage profond : Ces méthodes s'appuient sur de grandes quantités de données pour entraîner des modèles complexes pour estimer les portions alimentaires. Cependant, elles dépendent de la disponibilité de grands ensembles de données, qui ne sont pas toujours là. De plus, leurs performances peuvent baisser lorsqu'elles sont testées sur des images alimentaires inconnues.

Explication du jeu de données SimpleFood45

Le jeu de données SimpleFood45 répond à certains des défauts des jeux de données précédents en fournissant une large gamme d'images alimentaires, chacune annotée avec des infos véridiques comme les étiquettes de classe, le volume, le poids et l'énergie. Il contient un total de 513 images de 12 types d'aliments différents, permettant une évaluation robuste de la méthode proposée.

En utilisant ce jeu de données, les chercheurs obtiennent une meilleure base de comparaison des méthodes d'estimation, surtout puisque ça inclut des images prises sous différents angles, imitant de vraies situations de repas.

Évaluation des performances

La méthode proposée a été testée par rapport aux techniques existantes en utilisant le jeu de données SimpleFood45. Les résultats ont montré qu'elle surpassait significativement les méthodes traditionnelles et même d'autres techniques avancées, surtout en ce qui concerne l'estimation du contenu énergétique.

Généralisation à d'autres jeux de données

En plus d'évaluer la méthode proposée sur le jeu de données SimpleFood45, elle a également été testée sur des images du jeu de données Nutrition5k. Ce jeu de données contient des images prises d'une position de caméra fixe et inclut une carte de profondeur. La méthode proposée a également bien performé sur ce jeu de données, démontrant son adaptabilité à différents types d'images alimentaires.

Importance de l'estimation de la pose des objets

Pour affiner les performances de la méthode, une étude d'ablation a été menée. Cette analyse a montré que l'estimation de la position et de l'orientation de l'objet est cruciale pour une estimation précise du volume. Toute inexactitude dans la position de l'objet impacte significativement la surface mesurée dans l'image rendue, ce qui affecte à son tour les estimations de volume.

Directions futures

Bien que la méthode proposée ait montré des résultats prometteurs, il y a une limite notable : la dépendance à des modèles 3D précis pour chaque type de nourriture. Si le modèle 3D ne correspond pas étroitement à la portion réelle de nourriture (par exemple, si un aliment entier est modélisé au lieu d'une version tranchée), les estimations peuvent être faussées.

Pour aborder ces problèmes à l'avenir, les chercheurs prévoient de développer des techniques qui minimisent la dépendance à des modèles 3D fixes. Cela pourrait être réalisé grâce à des méthodes de reconstruction 3D à partir d'images 2D, permettant plus de flexibilité et de précision dans l'estimation des portions alimentaires.

Conclusion

En résumé, le cadre développé tire parti des images alimentaires 2D et des modèles 3D pour fournir une méthode plus précise pour estimer les tailles des portions alimentaires. Avec l'introduction du jeu de données SimpleFood45 et la combinaison efficace de la technologie, ce travail pave la voie à de futurs progrès dans l'évaluation alimentaire. Au final, ça vise à simplifier le suivi alimentaire tout en améliorant l'exactitude globale, ce qui peut jouer un rôle essentiel dans la compréhension et la promotion de habitudes alimentaires plus saines.

Source originale

Titre: Food Portion Estimation via 3D Object Scaling

Résumé: Image-based methods to analyze food images have alleviated the user burden and biases associated with traditional methods. However, accurate portion estimation remains a major challenge due to the loss of 3D information in the 2D representation of foods captured by smartphone cameras or wearable devices. In this paper, we propose a new framework to estimate both food volume and energy from 2D images by leveraging the power of 3D food models and physical reference in the eating scene. Our method estimates the pose of the camera and the food object in the input image and recreates the eating occasion by rendering an image of a 3D model of the food with the estimated poses. We also introduce a new dataset, SimpleFood45, which contains 2D images of 45 food items and associated annotations including food volume, weight, and energy. Our method achieves an average error of 31.10 kCal (17.67%) on this dataset, outperforming existing portion estimation methods. The dataset can be accessed at: https://lorenz.ecn.purdue.edu/~gvinod/simplefood45/ and the code can be accessed at: https://gitlab.com/viper-purdue/monocular-food-volume-3d

Auteurs: Gautham Vinod, Jiangpeng He, Zeman Shao, Fengqing Zhu

Dernière mise à jour: 2024-10-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.12257

Source PDF: https://arxiv.org/pdf/2404.12257

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires