Kalorienabschätzung aus Lebensmittelbildern: Ein neuer Ansatz
Ein Modell nutzt Bilder, um Kalorien zu schätzen und so Erkenntnisse für gesundes Essen zu verbessern.
― 6 min Lesedauer
Inhaltsverzeichnis
Immer mehr Menschen kämpfen mit Fettleibigkeit und damit verbundenen Gesundheitsproblemen, weshalb es immer wichtiger wird, darauf zu achten, was man isst. Obwohl Ernährung kompliziert sein kann, ist die einfache Idee, dass Gewichtsmanagement im Grunde bedeutet, Kalorien, die man zu sich nimmt, mit Kalorien, die man verbrennt, ins Gleichgewicht zu bringen. Für viele ist es schwierig, Kalorien für selbstgemachte Mahlzeiten zu berechnen, und die Nährwertangaben für Restaurantessen sind oft unmöglich zu bekommen. Das macht es schwer, den Kalorienverbrauch im Auge zu behalten.
Um dabei zu helfen, schlagen wir ein Modell vor, das die Anzahl der Kalorien in einem Gericht nur anhand eines einzelnen Bildes des Essens schätzen kann. Diese Aufgabe ist aus mehreren Gründen herausfordernd:
- Die Kalorienanzahl hängt nicht nur von der Art des Essens ab, sondern auch von der Menge, was auf einem einzelnen Bild schwer zu erkennen ist.
- Essensbilder stammen aus vielen verschiedenen Kameras, was zu Variationen in Qualität, Blickwinkeln und Beleuchtung führt.
- Es gibt nicht viele Datensätze mit Bildern von Essen und deren Kalorienanzahlen.
Um diese Herausforderungen zu bewältigen, muss unser Modell lernen, Merkmale herauszuziehen, die für jede Art von Essen, Hintergrund oder Menge funktionieren. In früheren Arbeiten haben wir verschiedene Vortrainingsschritte ausprobiert, wie z.B. Essensklassifikation und Gewichtsschätzung, um dem Modell zu helfen, die Kalorien besser vorherzusagen. Jetzt schauen wir, ob die Verwendung von menschlichen Salienz-Karten dem Modell helfen kann, sich auf die kaloriendichtesten Bereiche in Essensbildern zu konzentrieren.
Forschungsfragen
Um unsere Untersuchung zu leiten, haben wir vier Hauptforschungsfragen formuliert:
- Verbessern menschliche Salienz-Karten die Leistung der Kalorienschätzung?
- Können Vortrainingsaufgaben die Modelle, die Salienz-Karten verwenden, verbessern?
- Kann die Kombination der besten Modelle zu besseren Ergebnissen führen?
- Wie schneidet unser bestes Modell im Vergleich zu zuvor veröffentlichten Ergebnissen auf einem Testdatensatz ab?
Experimentdesign
Um diese Fragen zu beantworten, haben wir vier verschiedene Experimente eingerichtet:
- Bewertung der Salienz-Karten: Wir haben überprüft, ob menschliche Salienz-Karten die Kalorienschätzung verbessern, indem wir zwei Modelltypen verglichen, einen mit diesen Karten und einen ohne. 
- Verwendung von Vortrainingsaufgaben: Wir haben getestet, ob das Training der Modelle auf Essensklassifikation und Gewichtsschätzung zuerst zu besseren Ergebnissen führt, als mit Gewichten aus einem grossen Datensatz wie ImageNet zu starten. 
- Erstellung eines Ensemble-Modells: Wir haben die beiden leistungsstärksten Modelle kombiniert, um zu sehen, ob das zu besseren Vorhersagen führt. 
- Vergleich mit früheren Modellen: Wir haben das beste Modell, das wir gefunden haben, auf dem vorher zurückgehaltenen Datensatz namens Nutrition5k getestet, um zu sehen, wie es im Vergleich zu veröffentlichten Ergebnissen abschneidet. 
Wir haben vier Datensätze für unsere Experimente verwendet. Der Schwerpunkt lag auf der Kalorienvorhersage unter Verwendung eines Datensatzes namens MenuMatch für das Training und Nutrition5k als Testset. Zwei weitere Datensätze wurden für Aufgaben im Zusammenhang mit Essensklassifikation und Gewichtsschätzung verwendet.
Neuronale Modelle
Wir haben zwei Haupttypen neuronaler Modelle eingesetzt:
ResNet
ResNet ist ein Deep-Learning-Modell, das eine Struktur verwendet, die vom menschlichen Gehirn inspiriert ist und es ihm ermöglicht, bestimmte Verarbeitungsschichten zu überspringen. Das ahmt nach, wie unser Gehirn Informationen verarbeitet.
Xception
Xception ist ein weiteres Modell, das eine einzigartige Methode zur Datenverarbeitung durch eine Technik namens tiefe separierbare Faltung verwendet. Dadurch kann es aus weniger Parametern lernen und trotzdem effektiv sein.
Beide Modelle wurden angepasst, um Kalorienzahlen vorherzusagen, indem eine spezifische abschliessende Schicht hinzugefügt wurde.
Trainingsprozess
Zuerst haben wir die Modelle trainiert, um Essenskategorien zu erkennen. Dabei kam eine Form von Verlustfunktion zum Einsatz, die misst, wie gut das Modell abschneidet. Für die Aufgaben zur Schätzung des Essensvolumens und zur Kalorienvorhersage wurde eine andere Art der Fehlerbewertung verwendet.
Um menschliche Salienz-Karten in die Kalorienschätzung zu integrieren, haben wir diese Karten erstellt, indem wir Arbeiter gebeten haben, die kalorienreichsten Teile von Essensbildern zu umreissen. Diese Umrisse wurden dann in Heatmaps umgewandelt, die wichtige Bereiche hervorheben.
In unserem Training haben wir die Fokusbereiche des Modells mit den von Menschen erstellten Bereichen verglichen, um sicherzustellen, dass das Modell lernt, die richtigen Teile des Bildes zu priorisieren.
Ergebnisse
Wir haben die Ergebnisse unserer Experimente anhand unserer Forschungsfragen betrachtet:
1. Menschliche Salienz-Karten und Leistung
Wir haben festgestellt, dass Modelle, die menschliche Salienz-Karten verwenden, bessere Ergebnisse zeigten als solche, die das nicht taten. Im Durchschnitt gab es eine bemerkenswerte Verbesserung der Genauigkeit der Kalorienabschätzung beim Einsatz der Salienz-Karten während des Trainings.
2. Vortrainingsaufgaben
Obwohl wir erwarteten, dass Vortraining die Leistung verbessert, stellte sich heraus, dass es nicht schlecht war, mit Gewichten von ImageNet zu starten. Während alle vortrainierten Modelle besser abschnitten als die Basislinie, konnte keins das beste Modell mit menschlichen Salienz-Karten übertreffen.
3. Leistung des Ensemble-Modells
Überraschenderweise brachte die Kombination der beiden leistungsstärksten Modelle in ein Ensemble keine besseren Ergebnisse als das beste individuelle Modell.
4. Vergleich mit Nutrition5k
Im Test gegen den Nutrition5k-Datensatz übertraf unser bestes Modell nicht die früher veröffentlichten Ergebnisse, was unerwartet war, da wir auf anderen Datensätzen eine höhere Genauigkeit erreicht hatten.
Herausforderungen und Beobachtungen
Während der Experimente stellten wir oft eine niedrigere durchschnittliche Fehlerquote bei Validierungsdaten im Vergleich zu den tatsächlichen Testdaten fest. Das deutet auf Unterschiede in den Arten von Lebensmitteln in jedem Datensatz hin, was wahrscheinlich die Fähigkeit des Modells, Kalorienzahlen vorherzusagen, beeinflusste.
Interessanterweise haben wir selbst mit dem Nutrition5k-Datensatz sowohl fürs Training als auch fürs Testen keine besseren Ergebnisse erzielt als mit Modellen, die auf völlig anderen Lebensmitteln trainiert wurden. Das wirft Fragen zur Diversität des Datensatzes und zu den Blickwinkeln der Lebensmittelbilder auf und lässt uns überlegen, ob kleine Anpassungen wie Drehen oder Verändern von Bildern die Ergebnisse in zukünftigen Experimenten verbessern könnten.
Fazit
Insgesamt hat die Nutzung menschlicher Einsichten zur Verbesserung von Kalorienschätzmodellen Potenzial gezeigt, mit einer Verringerung des mittleren absoluten Fehlers in den Schätzungen. Die Ergebnisse deuten darauf hin, dass es zu besseren Vorhersagen führen kann, das Modell auf bestimmte Bereiche zu lenken. Es bedarf jedoch weiterer Untersuchungen, um Trainingsmethoden zu verfeinern, die die Leistung über verschiedene Datensätze hinweg ausbalancieren.
Trotz der aufgetretenen Herausforderungen zeigt der durchschnittliche Fehler des Modells von rund 200 Kalorien, dass es immer noch vernünftige Kalorienschätzungen für Mahlzeiten liefern kann, was den Menschen helfen könnte, ihren Kalorienverbrauch zu überwachen. Zukünftige Bemühungen könnten sich darauf konzentrieren, die Erforschung zu vertiefen, wie menschliche Einsichten effektiv in diese Modelle integriert werden können, um die Genauigkeit und Zuverlässigkeit zu verbessern.
Titel: Leveraging Human Salience to Improve Calorie Estimation
Zusammenfassung: The following paper investigates the effectiveness of incorporating human salience into the task of calorie prediction from images of food. We observe a 32.2% relative improvement when incorporating saliency maps on the images of food highlighting the most calorie regions. We also attempt to further improve the accuracy by starting the best models using pre-trained weights on similar tasks of mass estimation and food classification. However, we observe no improvement. Surprisingly, we also find that our best model was not able to surpass the original performance published alongside the test dataset, Nutrition5k. We use ResNet50 and Xception as the base models for our experiment.
Autoren: Katherine R. Dearstyne, Alberto D. Rodriguez
Letzte Aktualisierung: 2023-06-15 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.09527
Quell-PDF: https://arxiv.org/pdf/2306.09527
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.