LLM2D

摘要

arXiv:2505.08747v1 交叉类型：公布摘要：营养估算在促进健康饮食和减轻饮食相关健康风险方面是一个重要的组成部分。尽管在食物分类和成分识别等任务上取得了进展，但由于缺乏营养注释的数据集，营养估算的进步受到限制。为了解决这个问题，我们引入了FastFood数据集，该数据集包含84,446张图片，覆盖908个快餐类别，并附有成分和营养注释。此外，我们提出了一种新的模型无关的Visual-Ingredient Feature Fusion (VIF²) 方法，通过结合视觉和成分特征来增强营养估算。通过在训练过程中使用同义词替换和重采样策略来提高成分的鲁棒性。成分感知的视觉特征融合模块结合了成分特征和视觉表示，以实现精确的营养预测。在测试过程中，通过数据增强和多数投票方法使用大型多模态模型进一步细化成分预测。我们在FastFood和Nutrition5k数据集上的实验验证了我们提出的方法在不同骨干网络（如Resnet、InceptionV3和ViT）中的有效性，这证明了成分信息在营养估算中的重要性。https://huiyanqi.github.io/fastfood-nutrition-estimation/