摘要
arXiv:2504.15801v1 声明类型: cross
摘要: 随着大规模语言模型(LLMs)及其基于LLM的代理越来越多地在决策情境中与人类互动,人类与AI代理之间的信任动态理解变得至关重要。虽然有大量的文献研究人类如何信任AI代理,但基于LLM的代理如何发展有效的信任机制尚未得到充分理解。基于LLM的代理可能依赖于某种形式的信任相关上下文中的有效信任(例如,评估个人贷款申请),以辅助和影响决策。通过成熟的行为理论,我们开发了一种方法,研究LLM的信任是否依赖于人类主体的三大信任维度:能力、善意和正直。我们还研究了人口统计变量如何影响有效信任。在43,200次模拟实验中,对于五种流行的语言模型,在五种不同的情景中,我们发现基于LLM的代理信任发展的总体模式与人类信任发展的模式相似。我们发现,在大多数但并非所有案例中,基于LLM的代理的信任高度依赖于信任维度,而在某些情况下,年龄、宗教和性别也对有效信任产生了一定影响,尤其是在金融情境中。这种情况在文献中常见的场景和新模型中尤为明显。尽管整体模式与人类有效的信任形成机制相一致,但不同的模型在估计信任方面存在差异;在某些情况下,信任维度和人口统计因素并不是有效信任的强预测指标。这些发现呼吁更好地理解AI与人类之间的信任动态,以及监控偏见和信任发展模式,以防止在信任敏感的AI应用中出现无意的甚至可能有害的结果。