LLM2D

摘要

arXiv:2502.12825v2 交叉通知类型：综合摘要：当遇到来自新大规模语言模型（LLM）日益频繁的性能改进或成本降低时，使用LLM的应用开发者必须决定是否利用这些改进或继续使用较旧但经过验证的模型。低感知转换摩擦可能会导致忽视转换可能会引起的更微妙行为变化的决策。我们的实验利用了一个流行的博弈论行为经济学模型中的信任模型，展示了OpenAI和DeepSeek模型在信任行为上的显著差异。我们强调了o1-mini和o3-mini模型在解决利润最大化和风险寻求与信任未来回报之间的矛盾时，其经济信任行为的崩溃，并将其与DeepSeek更为复杂且盈利的信任行为进行了对比，后者源自于能够整合更深层次的概念，如前瞻性规划和心智理论。随着LLM成为高风险商业系统的基础，我们的结果强调了依赖于定义过于狭窄的LLM性能基准的危险，并建议任何组织的人工智能战略中都应包含对它们隐藏的薄弱环节进行仔细分析的内容。