摘要
arXiv:2504.13217v1 类型: cross
摘要:大型语言模型(LLMs)越来越多地嵌入到组织的工作流程中。这引发了对其能源消耗、财务成本和数据主权的关注。虽然性能基准测试往往庆祝最先进的模型,但在实际部署决策中需要更广阔的视角:何时一个小型、本地可部署的模型“已经足够好”?本研究通过评估来自十种日常生活职业任务的11个专有和开源权重LLM,提供了实证回答。这些任务包括总结文本、生成日程、撰写邮件和提案。我们采用基于双LLM的评估框架,自动化任务执行,并在十个与输出质量、事实准确性及道德责任相关的标准上实现了标准化评估。结果显示,GPT-4o 在这些标准上持续表现优异,但代价显著更高且对环境的影响更大。值得注意的是,Gemma-3 和 Phi-4 这些较小的模型在大多数任务中取得了强有力且可靠的结果,这表明它们在需要成本效益、本地部署或隐私保护的环境中具有可行性。聚类分析揭示了三种模型组——顶级全能型、能干的通才以及有限但安全的表现者——突出了质量、控制和可持续性之间的权衡。此外,任务类型影响模型的有效性:概念性任务对大多数模型构成了挑战,而汇总和转换任务则产生了更好的表现。我们主张从追求性能最大化基准转向考虑任务和上下文的适当性评估,这更符合组织的优先事项。本研究通过可持续性的视角贡献了一种可扩展的方法来评估AI模型,并为负责任的LLM在实践中的部署提供了切实可行的指导。