LLM2D

摘要

arXiv:2502.12825v1 Announce Type: cross 摘要：当遇到来自新的大型语言模型（LLM）日益频繁的性能改进或成本降低时，依赖LLM的应用开发人员必须决定是否利用这些改进或继续使用较旧但经过测试的模型。低感知转换摩擦可能会导致做出不考虑转换可能引起的更微妙行为变化的选择。我们的实验使用了一个流行的博弈论行为经济学模型中的信任模型，展示了OpenAI和DeepSeek模型间显着的信任行为差异。我们强调，随着o1-mini和o3-mini模型在权衡利润最大化和风险偏好与信任带来的未来回报时，其经济信任行为出现崩溃；而DeepSeek的更复杂且更盈利的信任行为则源自其能够纳入更深层次的概念，如前瞻性规划和心理理论。由于LLM构成了高风险商业系统的基础，我们的结果强调了依赖过于狭义定义的LLM性能基准所面临的风险，并建议任何组织的AI战略中应包括对其隐藏故障线的仔细分析。