LLM2D

摘要

基于图像的方法分析食物图像，减轻了传统方法的用户负担和偏差。然而，由于智能手机摄像头或可穿戴设备拍摄的食物二维图像丢失了三维信息，准确的份量估计仍然是一个重大挑战。本文提出了一种新的框架，通过利用三维食物模型和进食场景中的物理参考，从二维图像中估计食物体积和能量。我们的方法估计了输入图像中相机和食物对象的姿态，并通过渲染具有估计姿态的三维食物模型的图像来重建进食场景。我们还引入了一个新的数据集 SimpleFood45，其中包含 45 种食物的二维图像，以及相关的注释，包括食物体积、重量和能量。我们的方法在这个数据集上实现了 31.10 kCal（17.67%）的平均误差，优于现有的份量估计方法。数据集可在 https://lorenz.ecn.purdue.edu/~gvinod/simplefood45/ 获取，代码可在 https://gitlab.com/viper-purdue/monocular-food-volume-3d 获取。