LLM2D
NutriBench: 一个用于评估大型语言模型在从餐饮描述估算营养成分方面能力的数据集
NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions
作者: Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Laya Pullela, Yao Qin
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2407.12843v5

摘要

arXiv:2407.12843v5 宣告类型: 替换-交叉 摘要:准确的营养估算有助于人们做出知情的饮食选择,并且在预防严重健康并发症中至关重要。我们提出了 NutriBench,这是首个公开的自然语言餐食描述营养基准。NutriBench 包含 11,857 个来自全球实际饮食摄入数据的餐食描述。数据经过人工验证,并标注了宏营养素标签,包括碳水化合物、蛋白质、脂肪和热量。我们在碳水化合物估算任务上对 NutriBench 进行了广泛评估,测试了包括 GPT-4o、Llama3.1、Qwen2、Gemma2 和 OpenBioLLM 模型在内的十二种领先的大语言模型(LLMs),使用了标准的 Chain-of-Thought 和检索增强生成策略。此外,我们对专业营养师进行了研究,发现大语言模型可以提供可比但显著更快的估算。最后,我们通过模拟碳水化合物预测对糖尿病患者血糖水平的影响,进行了现实世界的风险评估。我们的工作突显了使用大语言模型进行营养估算的机会和挑战,展示了它们对专业人员和普通人的潜在帮助,以改善健康结果。我们的基准数据可在以下网址获得:https://mehak126.github.io/nutribench.html