摘要
角色扮演代理(RPAs)在各种应用中展现出卓越的性能,但它们往往难以识别和恰当地响应与角色扮演知识冲突的困难查询。为了研究 RPAs 面对不同类型的冲突请求时的表现,我们开发了一个评估基准,其中包括上下文知识冲突请求、参数知识冲突请求和非冲突请求,以评估 RPAs 识别冲突并适当地拒绝回答的能力,而不会过度拒绝。通过广泛的评估,我们发现大多数 RPAs 在面对不同冲突请求时表现出显著的性能差距。为了阐明原因,我们对 RPAs 在各种冲突场景下的表示层进行了深入分析。我们的发现揭示了模型转发表示中存在拒绝区域和直接响应区域,从而影响了 RPA 的最终响应行为。因此,我们引入了一种轻量级表示编辑方法,方便地将冲突请求转移到拒绝区域,从而提高模型的拒绝准确性。实验结果验证了我们编辑方法的有效性,提高了 RPAs 对冲突请求的拒绝能力,同时保持了它们的一般角色扮演能力。