LLM2D

摘要

arXiv:2503.20786v1 交叉验证类型：横跨摘要：大规模语言模型（LLMs）的快速进步增加了将其部署在移动设备上以进行设备端AI应用程序的兴趣。移动用户与LLMs的交互方式不同于桌面用户，这创造了独特的期望和数据偏差。当前的基准数据集主要针对服务器和桌面环境，而专门为移动环境设计的广泛数据集明显不足。此外，移动设备在存储和计算资源方面面临严格的限制，限制了模型大小和能力，从而要求优化效率并优先考虑知识。为应对这些挑战，我们介绍了Mobile-MMLU，这是一个针对移动智能定制的大规模基准数据集。它包含16,186个问题，覆盖80个移动相关领域，旨在评估LLM在实际移动场景中的表现。Mobile-MMLU-Pro是一个具有挑战性的子集，其评估难度显著高于我们的标准全集，但与MMLU-Pro的规模相当。两个基准都使用多项选择、顺序不变的问题，重点是实用性移动交互，如食谱建议、旅行规划和日常任务。该数据集强调关键的移动特定指标，如推断延迟、能耗、内存使用和响应质量，提供了对在移动限制下模型性能的全面洞察。此外，它优先考虑隐私和适应性，评估模型在设备上进行处理、维护用户隐私并适应个性化使用模式的能力。Mobile-MMLU 家族提供了一个标准化框架，用于开发和比较移动优化的LLM，使移动计算环境中生产力和决策的提升成为可能。我们的代码和数据可在以下地址获取：https://github.com/VILA-Lab/Mobile-MMLU。