Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Un nouveau jeu de données pour estimer la nutrition dans les repas

Un ensemble de données aide les modèles de langue à estimer les glucides dans les repas à partir de descriptions quotidiennes.

― 8 min lire


Estimation de laEstimation de lanutrition avec desmodèles d'IArepas.modèles à estimer les glucides desUn nouveau jeu de données aide les
Table des matières

La Nutrition est super importante pour faire des choix sains et éviter des problèmes de santé. Cet article parle d'un nouveau jeu de données créé pour aider les grands modèles de langage (LLM) à estimer les Glucides dans les repas à partir de descriptions en langage courant.

C'est quoi le jeu de données ?

Le jeu de données contient 5 000 descriptions de repas qui ont été vérifiées pour leur précision. Chaque repas est étiqueté avec des détails nutritionnels importants comme les glucides, les protéines, les graisses et les calories. Le jeu de données est divisé en 15 groupes différents selon la complexité des repas, en tenant compte de facteurs comme le nombre d'éléments alimentaires et la spécificité des portions.

Importance de l'estimation nutritionnelle

Savoir estimer avec précision les nutriments dans les repas peut aider les gens à gérer leur régime. C'est surtout crucial pour ceux qui ont des problèmes de santé, comme le diabète, où connaître la teneur en glucides des repas est essentiel pour contrôler la glycémie. Les erreurs dans l'estimation des glucides peuvent mener à de sérieux problèmes de santé.

Défis des méthodes actuelles

Beaucoup de méthodes existantes pour estimer la nutrition impliquent un auto-reportage fastidieux ou l'utilisation d'images de nourriture, ce qui peut poser des problèmes de confidentialité et ne pas toujours tout capturer clairement. Ces méthodes peuvent être longues et déroutantes pour les utilisateurs. Une façon plus simple de décrire les repas en utilisant un langage naturel pourrait simplifier le processus.

Pourquoi utiliser des grands modèles de langage ?

Les grands modèles de langage sont des systèmes d'IA avancés capables de comprendre et de générer du texte semblable à celui des humains. On pense qu'ils peuvent être utiles pour estimer la nutrition à partir de descriptions de repas parce qu'ils possèdent une vaste quantité de connaissances générales et peuvent répondre à une variété de questions.

Malheureusement, il n’y avait pas de Jeux de données disponibles pour tester correctement leurs capacités dans ce domaine de l'estimation nutritionnelle. Ce nouveau jeu de données vise à combler cette lacune.

Processus de création du jeu de données

L'équipe a créé le jeu de données en rassemblant des informations sur les aliments provenant d'une source fiable, puis en filtrant pour la qualité. Cela a impliqué de retirer les données aberrantes et de s'assurer de la cohérence des noms d'aliments et des tailles de portions. Ils ont également créé des descriptions de repas qui reflètent comment les gens parlent typiquement de la nourriture, ce qui est plus accessible et convivial.

Sources de données

Le jeu de données utilise principalement des informations de FoodData Central, une base de données complète sur les aliments. L'objectif était d'obtenir des informations complètes sur les macronutriments et de créer des descriptions de repas réalistes.

Génération de descriptions de repas

Pour générer des descriptions de repas, l'équipe a utilisé un modèle de langage (GPT-3.5) qui a été instruit pour créer des descriptions diversifiées basées sur les aliments collectés. Après avoir généré les descriptions, elles ont été vérifiées par des humains pour garantir leur précision et leur clarté.

Expériences avec les modèles de langage

Une fois le jeu de données prêt, diverses expériences ont été menées avec sept modèles de langage à la pointe de la technologie. Ces modèles incluaient des noms connus comme GPT-3.5 et Llama-3. L'équipe a utilisé différentes méthodes de requêtes pour voir à quel point les modèles pouvaient estimer les glucides en se basant sur les descriptions des repas.

Méthodes d'évaluation

L'équipe a comparé les prédictions des modèles avec les valeurs réelles de glucides, mesurant la précision et à quelle fréquence les modèles pouvaient fournir une réponse. Ils ont également examiné comment différents facteurs, comme la complexité des descriptions de repas, affectaient les résultats.

Résultats et observations

Les expériences ont révélé des insights intéressants concernant la performance des modèles de langage.

Comparaison des performances

Dans l'ensemble, GPT-3.5 a surpassé les autres modèles. Il a atteint la meilleure précision en utilisant une méthode de requête spécifique appelée Chain-of-Thought (CoT). Cette méthode a aidé le modèle à raisonner à travers les informations étape par étape, facilitant ainsi la gestion des descriptions de repas complexes.

Taux de réponses

Bien que GPT-3.5 ait montré une grande précision, il hésitait parfois à fournir une réponse s'il avait des doutes. Cela signifiait que, même s'il était précis, sa disposition à répondre pouvait être inférieure à celle d'autres modèles.

L'étude a également noté que les modèles plus grands avaient tendance à mieux performer que les plus petits, confirmant l'idée que la taille et la complexité peuvent mener à de meilleures performances.

Analyse des repas multi-éléments et multi-portions

Lors des tests de divers scénarios de repas, les chercheurs ont trouvé que les modèles faisaient bien avec des repas contenant plusieurs éléments mais avaient du mal quand les repas comprenaient plusieurs portions.

Complexité des requêtes multi-éléments

Le résumé des tests a montré que fournir le contexte complet des repas, y compris tous les éléments dans une seule requête, était bénéfique pour des prédictions précises. C'était particulièrement vrai pour les repas avec plusieurs aliments et une seule portion.

Problèmes avec les requêtes multi-portions

Cependant, quand il s'agissait de repas avec plusieurs portions, les modèles avaient du mal à fournir des estimations précises. L'équipe pensait que cette difficulté venait du manque de tailles de portions communes dans les données d'entraînement, ce qui entraînait des inexactitudes dans les prédictions.

Insights de l'étude humaine

Pour évaluer davantage les capacités des modèles de langage, une étude humaine a été réalisée avec un nutritionniste et plusieurs participants non-experts.

Performance par rapport aux experts humains

Les résultats ont montré qu'un nutritionniste professionnel ne pouvait pas systématiquement surpasser les modèles de langage avancés dans l'estimation des glucides. Le nutritionniste a mis beaucoup plus de temps à compléter le même nombre de requêtes, indiquant que les modèles de langage pouvaient fournir des réponses plus rapidement et avec moins de stress pour les utilisateurs.

Défis et limitations

Une analyse des erreurs a été réalisée pour mieux comprendre les limitations des modèles.

Types d'erreurs identifiées

L'équipe a classé les erreurs en catégories, telles que les prédictions incorrectes et les erreurs de taille de portion. La majorité des erreurs étaient liées à des estimations qui ne correspondaient pas à la teneur réelle en glucides des repas.

Confiance des modèles et estimations

L'analyse a révélé que les modèles avaient souvent des informations précises pour une taille de portion mais avaient du mal à généraliser à une autre, entraînant des erreurs significatives dans les prédictions.

Conclusion

Ce nouveau jeu de données et l'étude associée offrent des aperçus sur le potentiel des modèles de langage pour l'estimation nutritionnelle. Les résultats suggèrent que, même si ces modèles montrent des promesses, il reste encore des défis à relever, notamment en ce qui concerne les conversions de tailles de portions et les repas multi-portions.

Les chercheurs espèrent que les informations recueillies inspireront des travaux futurs pour développer des modèles encore meilleurs pour estimer la nutrition en se basant sur des descriptions de repas en langage courant. En s'attaquant aux limitations actuelles, l'objectif est d'améliorer les choix alimentaires et les résultats de santé globale pour les individus.

Remerciements

Les chercheurs remercient tous ceux qui ont contribué au projet, y compris ceux qui ont aidé à la collecte des données et à la vérification humaine. Leurs efforts ont été essentiels au succès de cette étude.

Directions futures

Pour l'avenir, l'équipe prévoit d'élargir le jeu de données et de continuer à tester les capacités des modèles de langage. Ils espèrent affiner les méthodes existantes et, éventuellement, créer des modèles plus spécialisés qui peuvent fournir de meilleures estimations nutritionnelles, contribuant ainsi à des choix alimentaires plus sains pour tout le monde.

Source originale

Titre: NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

Résumé: Accurate nutrition estimation helps people make informed dietary choices and is essential in the prevention of serious health complications. We present NutriBench, the first publicly available natural language meal description nutrition benchmark. NutriBench consists of 11,857 meal descriptions generated from real-world global dietary intake data. The data is human-verified and annotated with macro-nutrient labels, including carbohydrates, proteins, fats, and calories. We conduct an extensive evaluation of NutriBench on the task of carbohydrate estimation, testing twelve leading Large Language Models (LLMs), including GPT-4o, Llama3.1, Qwen2, Gemma2, and OpenBioLLM models, using standard, Chain-of-Thought and Retrieval-Augmented Generation strategies. Additionally, we present a study involving professional nutritionists, finding that LLMs can provide more accurate and faster estimates. Finally, we perform a real-world risk assessment by simulating the effect of carbohydrate predictions on the blood glucose levels of individuals with diabetes. Our work highlights the opportunities and challenges of using LLMs for nutrition estimation, demonstrating their potential to aid professionals and laypersons and improve health outcomes. Our benchmark is publicly available at: https://mehak126.github.io/nutribench.html

Auteurs: Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Laya Pullela, Yao Qin

Dernière mise à jour: 2024-11-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.12843

Source PDF: https://arxiv.org/pdf/2407.12843

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires