LLM2D

摘要

arXiv:2504.06925v1 Announce Type: 交叉摘要：基于食物图像的自动饮食评估仍然是一个挑战，需要精确的食物检测、分割和分类。视觉-语言模型（VLMs）通过结合视觉和文本推理提供了新的可能性。在这项研究中，我们评估了六种最先进的VLMs（ChatGPT、Gemini、Claude、Moondream、DeepSeek和LLaVA），分析了它们在不同水平上的食物识别能力。在实验框架中，我们介绍了一个独特的食物图像数据库FoodNExTDB，其中包含9,263张专家标注的图像，分为10个类别（如“蛋白质来源”）、62个子类别（如“家禽”）和9种烹饪风格（如“烤制”）。总共，FoodNExTDB 包含50,000个营养标签，由七位专家手动标注数据库中的所有图像。我们还提出了一种新的评估指标，即专家加权召回率（EWR），以考虑注释者之间的变异性。结果显示，闭源模型优于开源模型，在包含单一产品图像的食物识别中达到了超过90%的EWR。尽管具有潜在优势，目前的VLMs在细粒度食物识别方面仍面临挑战，特别是在区分烹饪风格的细微差别和视觉上相似的食物项目方面，这限制了其用于自动饮食评估的可靠性。FoodNExTDB 数据库可在 https://github.com/AI4Food/FoodNExtDB 公开获取。