LLM2D
视觉-语言模型准备好进行饮食评估了吗?探索AI驱动食物图像识别的下一个前沿
Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition
作者: Sergio Romero-Tapiador, Ruben Tolosana, Blanca Lacruz-Pleguezuelos, Laura Judith Marcos Zambrano, Guadalupe X. Baz\'an, Isabel Espinosa-Salinas, Julian Fierrez, Javier Ortega-Garcia, Enrique Carrillo de Santa Pau, Aythami Morales
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06925v1

摘要

arXiv:2504.06925v1 Announce Type: 交叉 摘要:基于食物图像的自动饮食评估仍然是一个挑战,需要精确的食物检测、分割和分类。视觉-语言模型(VLMs)通过结合视觉和文本推理提供了新的可能性。在这项研究中,我们评估了六种最先进的VLMs(ChatGPT、Gemini、Claude、Moondream、DeepSeek和LLaVA),分析了它们在不同水平上的食物识别能力。在实验框架中,我们介绍了一个独特的食物图像数据库FoodNExTDB,其中包含9,263张专家标注的图像,分为10个类别(如“蛋白质来源”)、62个子类别(如“家禽”)和9种烹饪风格(如“烤制”)。总共,FoodNExTDB 包含50,000个营养标签,由七位专家手动标注数据库中的所有图像。我们还提出了一种新的评估指标,即专家加权召回率(EWR),以考虑注释者之间的变异性。结果显示,闭源模型优于开源模型,在包含单一产品图像的食物识别中达到了超过90%的EWR。尽管具有潜在优势,目前的VLMs在细粒度食物识别方面仍面临挑战,特别是在区分烹饪风格的细微差别和视觉上相似的食物项目方面,这限制了其用于自动饮食评估的可靠性。FoodNExTDB 数据库可在 https://github.com/AI4Food/FoodNExtDB 公开获取。