摘要
arXiv:2504.06925v1 Announce Type: 交叉
摘要:基于食物图像的自动饮食评估仍然是一个挑战,需要精确的食物检测、分割和分类。视觉-语言模型(VLMs)通过结合视觉和文本推理提供了新的可能性。在这项研究中,我们评估了六种最先进的VLMs(ChatGPT、Gemini、Claude、Moondream、DeepSeek和LLaVA),分析了它们在不同水平上的食物识别能力。在实验框架中,我们介绍了一个独特的食物图像数据库FoodNExTDB,其中包含9,263张专家标注的图像,分为10个类别(如“蛋白质来源”)、62个子类别(如“家禽”)和9种烹饪风格(如“烤制”)。总共,FoodNExTDB 包含50,000个营养标签,由七位专家手动标注数据库中的所有图像。我们还提出了一种新的评估指标,即专家加权召回率(EWR),以考虑注释者之间的变异性。结果显示,闭源模型优于开源模型,在包含单一产品图像的食物识别中达到了超过90%的EWR。尽管具有潜在优势,目前的VLMs在细粒度食物识别方面仍面临挑战,特别是在区分烹饪风格的细微差别和视觉上相似的食物项目方面,这限制了其用于自动饮食评估的可靠性。FoodNExTDB 数据库可在 https://github.com/AI4Food/FoodNExtDB 公开获取。