摘要
arXiv:2504.05862v1 通告类型: 新
摘要: 基于大规模语言模型的代理正在成为一种低成本机制,用于提供个性化且富有对话性的建议,已经在相对简单的场景中展示了令人印象深刻的性能,例如电影推荐。但在复杂且高风险的领域,如金融领域,这些代理的表现如何呢?在这种领域,专业领域的知识是必不可少的,错误可能会带来重大风险。本文探讨了在金融领域大规模语言模型代理的有效性,重点关注三个独特的挑战:(1)当用户自身可能对其需求也不确定时,引起用户的偏好;(2)为不同的投资偏好提供个性化的指导;(3)利用顾问的性格特征来建立关系并促进信任。通过一项包含64名参与者的实验室用户研究,我们展示了当引起偏好时,大规模语言模型代理往往能与人类顾问的表现相当,尽管它们可能难以解决冲突的用户需求。在提供个性化建议时,大规模语言模型能够积极影响用户行为,但显示出明显的失败模式。我们的结果显示,准确地引起偏好是关键的,否则,大规模语言模型代理几乎没有影响,甚至可能将投资者引导到不合适的资产上。更令人担忧的是,用户似乎对所提建议的质量不敏感,甚至更糟糕的是,建议的质量可能与用户的需求呈反比。事实上,用户表示更喜欢并且对采用外向人格特征的大规模语言模型更为满意,并且产生了更多的情感信任,尽管这些代理提供的建议反而更差。