摘要
arXiv:2409.09013v2 通知类型: 修改
摘要:真实性(遵守事实准确性)和实用性(满足人类需求和指令)是大型语言模型的基本方面,然而这些目标常常会产生冲突(例如,推销有已知缺陷的汽车),这使得在实际部署中同时实现这两个目标变得具有挑战性。我们提出了一种AI-LieDar框架,以研究基于大语言模型的代理在多轮交互设置中如何应对这些场景。我们设计了一组现实世界的场景,在这些场景中,语言代理在与模拟的人类代理进行多轮对话时被指示实现与真实性的冲突目标。为了大规模评估真实性,我们开发了一种灵感来自心理学文献的真实性的检测器,以评估代理的响应。我们的实验表明,所有模型在不到50%的时间内是真实的,尽管不同模型在真实性和目标实现(实用性)方面的比率各不相同。我们进一步测试了对大语言模型进行真实性引导的能力,发现模型可以被引导变得真实或欺骗,即使是被真实性引导的模型也会撒谎。这些发现揭示了大型语言模型中真实性复杂性,并强调了进一步研究以确保大型语言模型和基于大型语言模型的代理的安全和可靠部署的重要性。