LLM2D

摘要

arXiv:2504.13871v1 类型: cross 摘要：本研究探讨了算法对人类判断进行评估在混合决策系统中未被充分研究的作用，这是管理研究中的一个关键缺口。尽管现有文献主要关注人类不愿遵循算法建议，我们却从另一个角度出发，研究基于大型语言模型（LLM）的AI代理如何评估和整合人类输入。我们的工作解决了企业管理中的一个紧迫限制：由于隐私问题而被禁止直接部署LLM的企业，仍然可以通过使用它们作为中介工具（例如脱敏输出或决策管道）来引导高风险决策（如定价或折扣），而不暴露专有数据。通过一个受控的预测任务，我们分析了一个基于LLM的AI代理如何权衡人类预测与算法预测。我们的研究发现，AI系统系统性地低估了人类建议，并对人类错误施加更严厉的惩罚——当代理的身份（人或AI）被披露且人类位于次要位置时，这种偏差会进一步加剧。这些结果揭示了AI生成的信任度指标与人类判断的实际影响之间的脱节，挑战了关于公平的人机协作的假设。我们的发现提供了三个关键贡献。首先，我们识别出一种反向的算法厌恶现象，即尽管错误率相似，AI代理仍然低估人类输入的价值。其次，我们展示了披露和位置偏见如何交互以放大这一效应，这对系统设计有重要影响。第三，我们提供了一个平衡预测能力和数据隐私的框架，用于间接部署LLM。对于实践者来说，这项研究强调了审计AI权重机制、校准信任动态以及战略性设计人机系统决策序列的必要性。