摘要
arXiv:2503.20786v1 交叉验证类型:横跨
摘要:大规模语言模型(LLMs)的快速进步增加了将其部署在移动设备上以进行设备端AI应用程序的兴趣。移动用户与LLMs的交互方式不同于桌面用户,这创造了独特的期望和数据偏差。当前的基准数据集主要针对服务器和桌面环境,而专门为移动环境设计的广泛数据集明显不足。此外,移动设备在存储和计算资源方面面临严格的限制,限制了模型大小和能力,从而要求优化效率并优先考虑知识。为应对这些挑战,我们介绍了Mobile-MMLU,这是一个针对移动智能定制的大规模基准数据集。它包含16,186个问题,覆盖80个移动相关领域,旨在评估LLM在实际移动场景中的表现。Mobile-MMLU-Pro是一个具有挑战性的子集,其评估难度显著高于我们的标准全集,但与MMLU-Pro的规模相当。两个基准都使用多项选择、顺序不变的问题,重点是实用性移动交互,如食谱建议、旅行规划和日常任务。该数据集强调关键的移动特定指标,如推断延迟、能耗、内存使用和响应质量,提供了对在移动限制下模型性能的全面洞察。此外,它优先考虑隐私和适应性,评估模型在设备上进行处理、维护用户隐私并适应个性化使用模式的能力。Mobile-MMLU 家族提供了一个标准化框架,用于开发和比较移动优化的LLM,使移动计算环境中生产力和决策的提升成为可能。我们的代码和数据可在以下地址获取:https://github.com/VILA-Lab/Mobile-MMLU。